🔥GLM-5のローンチを@Zai_orgおめでとうございます — 744Bパラメータ(40Bアクティブ)、28.5Tトークンで訓練、DeepSeek Sparse Attentionを統合して展開コストを管理しつつ長期コンテキスト容量を維持しています。 vLLMはGLM-5-FP8のデイ0サポートを行っています。 📖 効率的な長期コンテキストサービングのためのDeepSeek Sparse Attention(スパースアテンシャル) ⚡️ MTPの推測的復号 ⚙️ ツールコール+思考モード サービング設定とベンチマークを含むレシピ: 🔗