🔥Parabéns ao @Zai_org pelo lançamento do GLM-5 — 744B parâmetros (40B ativos), treinado em tokens 28.5T, integrando o DeepSeek Sparse Attention para manter o custo de implantação gerenciável enquanto preserva a capacidade de longo contexto. O vLLM tem suporte para o dia 0 para GLM-5-FP8 com: 📖 DeepSeek Atenção Escassa para serviço eficiente em contexto longo ⚡️ Decodificação especulativa MTP ⚙️ Chamada de ferramenta + modo de pensamento Receita com configurações de saque e benchmarks: 🔗