🔥Поздравляем @Zai_org с запуском GLM-5 — 744B параметров (40B активных), обученных на 28.5T токенов, интегрируя DeepSeek Sparse Attention для управления затратами на развертывание при сохранении возможности работы с длинным контекстом. vLLM имеет поддержку GLM-5-FP8 с первого дня с: 📖 DeepSeek Sparse Attention для эффективного обслуживания длинного контекста ⚡️ Спекулятивное декодирование MTP ⚙️ Вызов инструментов + режим мышления Рецепт с конфигурациями обслуживания и бенчмарками: 🔗