🔥Gefeliciteerd aan @Zai_org met de lancering van GLM-5 — 744B parameters (40B actief), getraind op 28,5T tokens, met integratie van DeepSeek Sparse Attention om de implementatiekosten beheersbaar te houden terwijl de capaciteit voor lange contexten behouden blijft. vLLM heeft dag-0 ondersteuning voor GLM-5-FP8 met: 📖 DeepSeek Sparse Attention voor efficiënte lange-context service ⚡️ MTP speculatieve decodering ⚙️ Tool aanroep + denkmodus Recept met serviceconfiguraties en benchmarks: 🔗