🔥Chúc mừng @Zai_org đã ra mắt GLM-5 — 744B tham số (40B hoạt động), được đào tạo trên 28.5T token, tích hợp DeepSeek Sparse Attention để giữ chi phí triển khai hợp lý trong khi vẫn bảo tồn khả năng xử lý ngữ cảnh dài. vLLM có hỗ trợ ngày-0 cho GLM-5-FP8 với: 📖 DeepSeek Sparse Attention cho phục vụ ngữ cảnh dài hiệu quả ⚡️ MTP giải mã suy đoán ⚙️ Gọi công cụ + chế độ suy nghĩ Công thức với cấu hình phục vụ và điểm chuẩn: 🔗