🔥Gratulerer til @Zai_org med lanseringen av GLM-5 — 744B parametere (40B aktive), trent på 28,5T-tokens, som integrerer DeepSeek Sparse Attention for å holde distribusjonskostnadene håndterbare samtidig som langtidskapasiteten bevares. vLLM har day-0-støtte for GLM-5-FP8 med: 📖 DeepSeek Sparse Attention for effektiv langtids-kontekstservering ⚡️ MTP spekulativ dekoding ⚙️ Verktøykall + tenkemodus Oppskrift med serveringskonfigurasjoner og benchmarks: 🔗