Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Bonk Eco continues to show strength amid $USELESS rally

Hosico+13,54%

USELESS+14,32%

IKUN+12,23%

gib+7,75%

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

vLLM

Parabéns à equipa @liquidai pelo LFM2-24B-A2B! 🎉 Suporte no dia 0 para LFM2-24B-A2B na versão estável do vLLM ✅ 24B de parâmetros totais, apenas 2B ativos por token — cabe em 32 GB de RAM e atinge 293 tok/s no H100 🔥

088339Há 22 horas

Hoje, lançamos o nosso maior modelo LFM2: LFM2-24B-A2B 🐘 > 24B parâmetros totais > 2.3B ativos por token > Construído na nossa arquitetura híbrida e consciente do hardware LFM2 Combina o design rápido e eficiente em memória do LFM2 com uma configuração de Mistura de Especialistas, de modo que apenas 2.3B parâmetros são ativados a cada execução. O resultado: eficiência de classe mundial, inferência rápida na borda e escalonamento log-linear previsível, tudo em uma pegada MoE de 32GB e 2B ativos. 🧵

vLLMHá 16 horas

🎉 Parabéns ao @Alibaba_Qwen pela série de Modelos Medium Qwen3.5 — Qwen3.5-35B-A3B, 122B-A10B e 27B 🚀🚀🚀 Mais inteligência, menos computação — exatamente o que a comunidade de código aberto adora ver! Confira nossa receita e experimente todos com vLLM hoje!

QwenHá 20 horas

🚀 Apresentando a Série de Modelos Qwen 3.5 Medium Qwen3.5-Flash · Qwen3.5-35B-A3B · Qwen3.5-122B-A10B · Qwen3.5-27B ✨ Mais inteligência, menos computação. • O Qwen3.5-35B-A3B agora supera o Qwen3-235B-A22B-2507 e o Qwen3-VL-235B-A22B — um lembrete de que uma melhor arquitetura, qualidade de dados e RL podem avançar a inteligência, não apenas contagens de parâmetros maiores. • O Qwen3.5-122B-A10B e o 27B continuam a reduzir a diferença entre modelos de tamanho médio e modelos de fronteira — especialmente em cenários de agentes mais complexos. • O Qwen3.5-Flash é a versão de produção hospedada alinhada com o 35B-A3B, apresentando: – 1M de comprimento de contexto por padrão – Ferramentas oficiais integradas 🔗 Hugging Face: 🔗 ModelScope: 🔗 API do Qwen3.5-Flash: Experimente no Qwen Chat 👇 Flash: 27B: 35B-A3B: 122B-A10B: Adoraria saber o que você constrói com isso.

vLLM12/02, 02:44

🔥Parabéns ao @Zai_org pelo lançamento do GLM-5 — 744B parâmetros (40B ativos), treinado em 28,5T tokens, integrando a Atenção Esparsa DeepSeek para manter os custos de implementação gerenciáveis enquanto preserva a capacidade de longo contexto. O vLLM tem suporte no dia 0 para GLM-5-FP8 com: 📖 Atenção Esparsa DeepSeek para um serviço eficiente de longo contexto ⚡️ Decodificação especulativa MTP ⚙️ Chamada de ferramentas + modo de pensamento Receita com configurações de serviço e benchmarks: 🔗

Top

Classificação

Favoritos