🔥Gratuluji @Zai_org k uvedení GLM-5 — 744B parametrů (40B aktivní), trénování na 28,5T tokenech, integraci DeepSeek Sparse Attention, aby byly náklady na nasazení zvládnutelné a zároveň zachovaly kapacitu pro dlouhý kontext. vLLM podporuje od dne 0 pro GLM-5-FP8 s: 📖 DeepSeek Sparse Attention pro efektivní dlouhodobé podávání ⚡️ MTP spekulativní dekódování ⚙️ Volání nástrojů + myšlenkový režim Recept s konfiguracemi servírování a benchmarky: 🔗