🔥Félicitations à @Zai_org pour le lancement de GLM-5 — 744B paramètres (40B actifs), entraîné sur 28,5T de tokens, intégrant DeepSeek Sparse Attention pour maintenir les coûts de déploiement gérables tout en préservant la capacité de long contexte. vLLM a un support jour-0 pour GLM-5-FP8 avec : 📖 DeepSeek Sparse Attention pour un service efficace de long contexte ⚡️ Décodage spéculatif MTP ⚙️ Appel d'outils + mode de réflexion Recette avec configurations de service et benchmarks : 🔗