🔥Selamat kepada @Zai_org atas peluncuran GLM-5 — parameter 744B (40B aktif), dilatih pada token 28.5T, mengintegrasikan DeepSeek Sparse Attention untuk menjaga biaya penerapan tetap dapat dikelola sambil mempertahankan kapasitas konteks panjang. vLLM memiliki dukungan hari-0 untuk GLM-5-FP8 dengan: 📖 DeepSeek Sparse Attention untuk penyajian konteks panjang yang efisien ⚡️ Decoding spekulatif MTP ⚙️ Mode panggilan alat + berpikir Resep dengan konfigurasi penyajian dan tolok ukur: 🔗