🔥Gratulacje dla @Zai_org z okazji uruchomienia GLM-5 — 744B parametrów (40B aktywnych), wytrenowanych na 28,5T tokenów, integrujących DeepSeek Sparse Attention, aby utrzymać koszty wdrożenia na rozsądnym poziomie, jednocześnie zachowując zdolność do długiego kontekstu. vLLM ma wsparcie od dnia 0 dla GLM-5-FP8 z: 📖 DeepSeek Sparse Attention dla efektywnego serwowania długiego kontekstu ⚡️ MTP spekulacyjne dekodowanie ⚙️ Wywoływanie narzędzi + tryb myślenia Przepis z konfiguracjami serwowania i benchmarkami: 🔗