🔥¡Felicidades a @Zai_org por el lanzamiento de GLM-5 — 744B parámetros (40B activos), entrenado en 28.5T tokens, integrando DeepSeek Sparse Attention para mantener los costos de implementación manejables mientras se preserva la capacidad de contexto largo. vLLM tiene soporte desde el día 0 para GLM-5-FP8 con: 📖 DeepSeek Sparse Attention para un servicio eficiente de contexto largo ⚡️ Decodificación especulativa MTP ⚙️ Llamada a herramientas + modo de pensamiento Receta con configuraciones de servicio y benchmarks: 🔗