🔥Вітаємо @Zai_org із запуском GLM-5 — параметри 744B (активні 40B), навчені на токенах 28.5T, інтеграцію DeepSeek Sparse Attention для управління витратами на розгортання при збереженні потужності довгого контексту. vLLM підтримує GLM-5-FP8 у день 0 з: 📖 DeepSeek Sparse Attention для ефективного довготривалого обслуговування ⚡️ Спекулятивне декодування MTP ⚙️ Виклик інструментів + режим мислення Рецепт із конфігураціями та бенчмарками подачі сервірування: 🔗