🔥Enhorabuena a @Zai_org por lanzar GLM-5 — 744B parámetros (40B activos), entrenado con tokens 28.5T, integrando DeepSeek Sparse Attention para mantener el coste de despliegue manejable mientras se preserva la capacidad de contexto largo. vLLM tiene soporte de día 0 para GLM-5-FP8 con: 📖 DeepSeek Atención escasa para un servicio eficiente en contexto largo ⚡️ Decodificación especulativa MTP ⚙️ Llamada de herramientas + modo de pensamiento Receta con configuraciones de servicio y benchmarks: 🔗