Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hoje, lançamos nosso maior modelo LFM2: LFM2-24B-A2B 🐘
> 24B parâmetros totais
> 2,3 bilhões ativos por token
> Construído sobre nossa arquitetura híbrida e consciente de hardware LFM2
Ele combina o design rápido e eficiente em memória do LFM2 com uma configuração Mistura de Experts, de modo que apenas 2,3 bilhões de parâmetros ativam cada execução.
O resultado: eficiência de excelência, inferência rápida de bordas e escalabilidade logarítmica previsível, tudo em uma área de 32GB de MoE ativa de 2B.
🧵

Com este lançamento, a família LFM2 abrange quase duas ordens de magnitude: de LFM2-350M a LFM2-24B-A2B. Cada avanço de escala trouxe ganhos consistentes de qualidade em benchmarks padrão.
Projetamos o LFM2-24B-A2B para caber em 32 GB de RAM, tornando-o rodável em laptops e desktops de consumo com processador gráfico integrado (iGPU) e unidade de processamento neural dedicada (NPU).
> LFM2-24B-A2B expande a família LFM2 de parâmetros 350M → 24B
> Quase duas ordens de magnitude de escala com melhorias consistentes e logarítricas na qualidade entre benchmarks
Receita de escala: Vá mais fundo. Adicione especialistas. Mantenha o caminho ativo enxuto.
Escalamos LFM2-24B-A2B indo mais fundo (24→40 camadas) e dobrando especialistas (32→64 por bloco MoE), mantendo o tamanho oculto (2048), roteamento top-4 e uma relação atenção:conv de 1:3 fixa.
> O total de parâmetros cresce 3× (8,3B→24B)
> Parâmetros ativos crescem apenas ~1,5× (1,5B→2,3B)
O custo de inferência acompanha o caminho ativo (não a contagem total de parâmetros), mantendo a latência e a energia alinhadas com as restrições reais de implantação no mundo real.
A capacidade escala. O cálculo por token permanece enxuto.

Nós lançamos isso como um modelo tradicional de instrução (sem rastreios de raciocínio) usando pós-treinamento leve.
Transversalmente:
> Diamante GPQA
> MMLU-Pro
> IFEval
> IFBench
> GSM8K
> MATH-500
A qualidade melhora linearitariamente de 350M → 24B.
Essa faixa de quase 100× parâmetros confirma o comportamento de escalonamento previsível da arquitetura híbrida LFM2, sem efeito de teto em modelos pequenos.

LFM2-24B-A2B é fornecido com suporte a day-zero para llama.cpp, vLLM e SGLang, CPU ou GPU de fábrica, com quantizações GGUF (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16).
Em CPU (AMD Ryzen AI Max+ 395, Q4_K_M), ele mantém ~93 tok/s em contexto 8K, superando modelos MoE de tamanho semelhante enquanto mantém forte escala em contexto longo.

No processador (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp), o LFM2-24B-A2B mantém um forte throughput de preenchimento em contextos de 1K→8K (~1.132 tok/s a 8K), mantendo-se competitivo com modelos MoE de tamanho semelhante.
Em GPU (H100 SXM5, SGLang/vLLM), demonstra escalonamento favorável de throughput de saída sob atendimento realista de alta concorrência, crítico para implantação eficiente em custos e cargas de trabalho RLVR.

Na GPU (H100 SXM5, vLLM), o LFM2-24B-A2B escala para ~26,8K taxa total de tokens (tok/s) em 1024 solicitações simultâneas (1024-max-input-tokens / 512-max-output-tokens), superando modelos MoE de tamanho semelhante sob lote contínuo.
Medido com pré-preenchimento intercalado realista + decodificação — construído para carga de trabalho em escala de produção e RL.

78
Melhores
Classificação
Favoritos
