🔥恭喜 @Zai_org 发布 GLM-5 — 744B 参数(40B 活跃),在 28.5T 令牌上训练,集成 DeepSeek 稀疏注意力以保持可管理的部署成本,同时保留长上下文能力。 vLLM 对 GLM-5-FP8 提供了零日支持,具有: 📖 DeepSeek 稀疏注意力以实现高效的长上下文服务 ⚡️ MTP 投机解码 ⚙️ 工具调用 + 思考模式 提供服务配置和基准的配方: 🔗