🔥Grattis till @Zai_org med lanseringen av GLM-5 — 744B parametrar (40B aktiva), tränade på 28,5T-tokens, integrerade DeepSeek Sparse Attention för att hålla distributionskostnaden hanterbar samtidigt som långkontextkapaciteten bevaras. vLLM har dag-0-stöd för GLM-5-FP8 med: 📖 DeepSeek Sparse Attention för effektiv långkontextservering ⚡️ MTP spekulativ avkodning ⚙️ Verktygsanrop + tänkande läge Recept med serveringskonfigurationer och benchmarks: 🔗