🔥Parabéns ao @Zai_org pelo lançamento do GLM-5 — 744B parâmetros (40B ativos), treinado em 28,5T tokens, integrando a Atenção Esparsa DeepSeek para manter os custos de implementação gerenciáveis enquanto preserva a capacidade de longo contexto. O vLLM tem suporte no dia 0 para GLM-5-FP8 com: 📖 Atenção Esparsa DeepSeek para um serviço eficiente de longo contexto ⚡️ Decodificação especulativa MTP ⚙️ Chamada de ferramentas + modo de pensamento Receita com configurações de serviço e benchmarks: 🔗