Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
Parabéns à equipa @liquidai pelo LFM2-24B-A2B! 🎉 Suporte no dia 0 para LFM2-24B-A2B na versão estável do vLLM ✅
24B de parâmetros totais, apenas 2B ativos por token — cabe em 32 GB de RAM e atinge 293 tok/s no H100 🔥


088339Há 22 horas
Hoje, lançamos o nosso maior modelo LFM2: LFM2-24B-A2B 🐘
> 24B parâmetros totais
> 2.3B ativos por token
> Construído na nossa arquitetura híbrida e consciente do hardware LFM2
Combina o design rápido e eficiente em memória do LFM2 com uma configuração de Mistura de Especialistas, de modo que apenas 2.3B parâmetros são ativados a cada execução.
O resultado: eficiência de classe mundial, inferência rápida na borda e escalonamento log-linear previsível, tudo em uma pegada MoE de 32GB e 2B ativos.
🧵

3
🎉 Parabéns ao @Alibaba_Qwen pela série de Modelos Medium Qwen3.5 — Qwen3.5-35B-A3B, 122B-A10B e 27B 🚀🚀🚀
Mais inteligência, menos computação — exatamente o que a comunidade de código aberto adora ver!
Confira nossa receita e experimente todos com vLLM hoje!

QwenHá 20 horas
🚀 Apresentando a Série de Modelos Qwen 3.5 Medium
Qwen3.5-Flash · Qwen3.5-35B-A3B · Qwen3.5-122B-A10B · Qwen3.5-27B
✨ Mais inteligência, menos computação.
• O Qwen3.5-35B-A3B agora supera o Qwen3-235B-A22B-2507 e o Qwen3-VL-235B-A22B — um lembrete de que uma melhor arquitetura, qualidade de dados e RL podem avançar a inteligência, não apenas contagens de parâmetros maiores.
• O Qwen3.5-122B-A10B e o 27B continuam a reduzir a diferença entre modelos de tamanho médio e modelos de fronteira — especialmente em cenários de agentes mais complexos.
• O Qwen3.5-Flash é a versão de produção hospedada alinhada com o 35B-A3B, apresentando:
– 1M de comprimento de contexto por padrão
– Ferramentas oficiais integradas
🔗 Hugging Face:
🔗 ModelScope:
🔗 API do Qwen3.5-Flash:
Experimente no Qwen Chat 👇
Flash:
27B:
35B-A3B:
122B-A10B:
Adoraria saber o que você constrói com isso.

12
🔥Parabéns ao @Zai_org pelo lançamento do GLM-5 — 744B parâmetros (40B ativos), treinado em 28,5T tokens, integrando a Atenção Esparsa DeepSeek para manter os custos de implementação gerenciáveis enquanto preserva a capacidade de longo contexto.
O vLLM tem suporte no dia 0 para GLM-5-FP8 com:
📖 Atenção Esparsa DeepSeek para um serviço eficiente de longo contexto
⚡️ Decodificação especulativa MTP
⚙️ Chamada de ferramentas + modo de pensamento
Receita com configurações de serviço e benchmarks:
🔗

44
Top
Classificação
Favoritos
