Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hoje, lançamos o nosso maior modelo LFM2: LFM2-24B-A2B 🐘
> 24B parâmetros totais
> 2.3B ativos por token
> Construído na nossa arquitetura híbrida e consciente do hardware LFM2
Combina o design rápido e eficiente em memória do LFM2 com uma configuração de Mistura de Especialistas, de modo que apenas 2.3B parâmetros são ativados a cada execução.
O resultado: eficiência de classe mundial, inferência rápida na borda e escalonamento log-linear previsível, tudo em uma pegada MoE de 32GB e 2B ativos.
🧵

Com este lançamento, a família LFM2 abrange quase duas ordens de magnitude: de LFM2-350M a LFM2-24B-A2B. Cada aumento de escala trouxe ganhos de qualidade consistentes em benchmarks padrão.
Projetámos o LFM2-24B-A2B para caber em 32 GB de RAM, tornando-o executável em laptops e desktops de consumo com processador gráfico integrado (iGPU) e unidade de processamento neural dedicada (NPU).
> O LFM2-24B-A2B expande a família LFM2 de 350M → 24B parâmetros
> Quase duas ordens de magnitude de escala com melhorias de qualidade consistentes e log-lineares em benchmarks.
Receita de escalabilidade: Aprofunde-se. Adicione especialistas. Mantenha o caminho ativo enxuto.
Escalamos o LFM2-24B-A2B aprofundando (24→40 camadas) e dobrando os especialistas (32→64 por bloco MoE), enquanto mantivemos o tamanho oculto (2048), roteamento top-4 e uma razão de atenção:conv 1:3 fixa.
> O total de parâmetros cresce 3× (8.3B→24B)
> Os parâmetros ativos crescem apenas ~1.5× (1.5B→2.3B)
O custo de inferência acompanha o caminho ativo (não o total de parâmetros), mantendo a latência e a energia alinhadas com as restrições de implantação do mundo real.
A capacidade escala. O cálculo por token permanece enxuto.

Enviámos isto como um modelo de instrução tradicional (sem rastros de raciocínio) utilizando pós-treinamento leve.
Através de:
> GPQA Diamond
> MMLU-Pro
> IFEval
> IFBench
> GSM8K
> MATH-500
A qualidade melhora de forma logarítmica de 350M → 24B.
Este intervalo de parâmetros quase 100× confirma o comportamento de escalonamento previsível da arquitetura híbrida LFM2, sem efeito de teto para modelos pequenos.

O LFM2-24B-A2B é enviado com suporte de dia zero para llama.cpp, vLLM e SGLang, CPU ou GPU pronto para uso, com quantizações GGUF (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16).
Na CPU (AMD Ryzen AI Max+ 395, Q4_K_M), mantém ~93 tok/s em contexto de 8K, superando modelos MoE de tamanho semelhante enquanto mantém uma forte escalabilidade em long-context.

Na CPU (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp), o LFM2-24B-A2B mantém um forte rendimento de pré-preenchimento em contextos de 1K→8K (~1.132 tok/s a 8K), permanecendo competitivo com modelos MoE de tamanho semelhante.
Na GPU (H100 SXM5, SGLang/vLLM), demonstra uma escalabilidade favorável do rendimento de saída sob um serviço de alta concorrência realista, crítico para uma implementação custo-efetiva e cargas de trabalho de RLVR.

No GPU (H100 SXM5, vLLM), o LFM2-24B-A2B escala para ~26.8K tokens totais de throughput (tok/s) com 1024 requisições simultâneas (1024-max-input-tokens / 512-max-output-tokens), superando modelos MoE de tamanho semelhante sob batching contínuo.
Medido com pré-preenchimento+decodificação intercalados realistas — construído para servir em escala de produção e cargas de trabalho de RL.

54
Top
Classificação
Favoritos
