Hoje, lançamos o nosso maior modelo LFM2: LFM2-24B-A2B 🐘 > 24B parâmetros totais > 2.3B ativos por token > Construído na nossa arquitetura híbrida e consciente do hardware LFM2 Combina o design rápido e eficiente em memória do LFM2 com uma configuração de Mistura de Especialistas, de modo que apenas 2.3B parâmetros são ativados a cada execução. O resultado: eficiência de classe mundial, inferência rápida na borda e escalonamento log-linear previsível, tudo em uma pegada MoE de 32GB e 2B ativos. 🧵
Com este lançamento, a família LFM2 abrange quase duas ordens de magnitude: de LFM2-350M a LFM2-24B-A2B. Cada aumento de escala trouxe ganhos de qualidade consistentes em benchmarks padrão. Projetámos o LFM2-24B-A2B para caber em 32 GB de RAM, tornando-o executável em laptops e desktops de consumo com processador gráfico integrado (iGPU) e unidade de processamento neural dedicada (NPU). > O LFM2-24B-A2B expande a família LFM2 de 350M → 24B parâmetros > Quase duas ordens de magnitude de escala com melhorias de qualidade consistentes e log-lineares em benchmarks.
Receita de escalabilidade: Aprofunde-se. Adicione especialistas. Mantenha o caminho ativo enxuto. Escalamos o LFM2-24B-A2B aprofundando (24→40 camadas) e dobrando os especialistas (32→64 por bloco MoE), enquanto mantivemos o tamanho oculto (2048), roteamento top-4 e uma razão de atenção:conv 1:3 fixa. > O total de parâmetros cresce 3× (8.3B→24B) > Os parâmetros ativos crescem apenas ~1.5× (1.5B→2.3B) O custo de inferência acompanha o caminho ativo (não o total de parâmetros), mantendo a latência e a energia alinhadas com as restrições de implantação do mundo real. A capacidade escala. O cálculo por token permanece enxuto.
Enviámos isto como um modelo de instrução tradicional (sem rastros de raciocínio) utilizando pós-treinamento leve. Através de: > GPQA Diamond > MMLU-Pro > IFEval > IFBench > GSM8K > MATH-500 A qualidade melhora de forma logarítmica de 350M → 24B. Este intervalo de parâmetros quase 100× confirma o comportamento de escalonamento previsível da arquitetura híbrida LFM2, sem efeito de teto para modelos pequenos.
O LFM2-24B-A2B é enviado com suporte de dia zero para llama.cpp, vLLM e SGLang, CPU ou GPU pronto para uso, com quantizações GGUF (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16). Na CPU (AMD Ryzen AI Max+ 395, Q4_K_M), mantém ~93 tok/s em contexto de 8K, superando modelos MoE de tamanho semelhante enquanto mantém uma forte escalabilidade em long-context.
Na CPU (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp), o LFM2-24B-A2B mantém um forte rendimento de pré-preenchimento em contextos de 1K→8K (~1.132 tok/s a 8K), permanecendo competitivo com modelos MoE de tamanho semelhante. Na GPU (H100 SXM5, SGLang/vLLM), demonstra uma escalabilidade favorável do rendimento de saída sob um serviço de alta concorrência realista, crítico para uma implementação custo-efetiva e cargas de trabalho de RLVR.
No GPU (H100 SXM5, vLLM), o LFM2-24B-A2B escala para ~26.8K tokens totais de throughput (tok/s) com 1024 requisições simultâneas (1024-max-input-tokens / 512-max-output-tokens), superando modelos MoE de tamanho semelhante sob batching contínuo. Medido com pré-preenchimento+decodificação intercalados realistas — construído para servir em escala de produção e cargas de trabalho de RL.
54