Hoje, lançamos nosso maior modelo LFM2: LFM2-24B-A2B 🐘 > 24B parâmetros totais > 2,3 bilhões ativos por token > Construído sobre nossa arquitetura híbrida e consciente de hardware LFM2 Ele combina o design rápido e eficiente em memória do LFM2 com uma configuração Mistura de Experts, de modo que apenas 2,3 bilhões de parâmetros ativam cada execução. O resultado: eficiência de excelência, inferência rápida de bordas e escalabilidade logarítmica previsível, tudo em uma área de 32GB de MoE ativa de 2B. 🧵
Com este lançamento, a família LFM2 abrange quase duas ordens de magnitude: de LFM2-350M a LFM2-24B-A2B. Cada avanço de escala trouxe ganhos consistentes de qualidade em benchmarks padrão. Projetamos o LFM2-24B-A2B para caber em 32 GB de RAM, tornando-o rodável em laptops e desktops de consumo com processador gráfico integrado (iGPU) e unidade de processamento neural dedicada (NPU). > LFM2-24B-A2B expande a família LFM2 de parâmetros 350M → 24B > Quase duas ordens de magnitude de escala com melhorias consistentes e logarítricas na qualidade entre benchmarks
Receita de escala: Vá mais fundo. Adicione especialistas. Mantenha o caminho ativo enxuto. Escalamos LFM2-24B-A2B indo mais fundo (24→40 camadas) e dobrando especialistas (32→64 por bloco MoE), mantendo o tamanho oculto (2048), roteamento top-4 e uma relação atenção:conv de 1:3 fixa. > O total de parâmetros cresce 3× (8,3B→24B) > Parâmetros ativos crescem apenas ~1,5× (1,5B→2,3B) O custo de inferência acompanha o caminho ativo (não a contagem total de parâmetros), mantendo a latência e a energia alinhadas com as restrições reais de implantação no mundo real. A capacidade escala. O cálculo por token permanece enxuto.
Nós lançamos isso como um modelo tradicional de instrução (sem rastreios de raciocínio) usando pós-treinamento leve. Transversalmente: > Diamante GPQA > MMLU-Pro > IFEval > IFBench > GSM8K > MATH-500 A qualidade melhora linearitariamente de 350M → 24B. Essa faixa de quase 100× parâmetros confirma o comportamento de escalonamento previsível da arquitetura híbrida LFM2, sem efeito de teto em modelos pequenos.
LFM2-24B-A2B é fornecido com suporte a day-zero para llama.cpp, vLLM e SGLang, CPU ou GPU de fábrica, com quantizações GGUF (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16). Em CPU (AMD Ryzen AI Max+ 395, Q4_K_M), ele mantém ~93 tok/s em contexto 8K, superando modelos MoE de tamanho semelhante enquanto mantém forte escala em contexto longo.
No processador (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp), o LFM2-24B-A2B mantém um forte throughput de preenchimento em contextos de 1K→8K (~1.132 tok/s a 8K), mantendo-se competitivo com modelos MoE de tamanho semelhante. Em GPU (H100 SXM5, SGLang/vLLM), demonstra escalonamento favorável de throughput de saída sob atendimento realista de alta concorrência, crítico para implantação eficiente em custos e cargas de trabalho RLVR.
Na GPU (H100 SXM5, vLLM), o LFM2-24B-A2B escala para ~26,8K taxa total de tokens (tok/s) em 1024 solicitações simultâneas (1024-max-input-tokens / 512-max-output-tokens), superando modelos MoE de tamanho semelhante sob lote contínuo. Medido com pré-preenchimento intercalado realista + decodificação — construído para carga de trabalho em escala de produção e RL.
78