DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Oggi rilasciamo il nostro modello LFM2 più grande: LFM2-24B-A2B 🐘 > 24B parametri totali > 2.3B attivi per token > Costruito sulla nostra architettura ibrida e consapevole dell'hardware LFM2 Combina il design veloce e a memoria efficiente di LFM2 con un setup Mixture of Experts, quindi solo 2.3B parametri si attivano ad ogni esecuzione. Il risultato: efficienza di prim'ordine, inferenza rapida ai margini e scalabilità log-lineare prevedibile, il tutto in un'impronta MoE da 32GB e 2B attivi. 🧵

Con questo rilascio, la famiglia LFM2 copre quasi due ordini di grandezza: da LFM2-350M a LFM2-24B-A2B. Ogni passo in avanti nella scala ha portato a guadagni di qualità costanti su benchmark standard. Abbiamo progettato LFM2-24B-A2B per adattarsi a 32 GB di RAM, rendendolo eseguibile su laptop e desktop consumer con processore grafico integrato (iGPU) e unità di elaborazione neurale dedicata (NPU). > LFM2-24B-A2B espande la famiglia LFM2 da 350M → 24B parametri > Quasi due ordini di grandezza di scala con miglioramenti di qualità costanti e log-lineari attraverso i benchmark.

Ricetta per la scalabilità: Approfondire. Aggiungere esperti. Mantenere il percorso attivo snello. Abbiamo scalato LFM2-24B-A2B approfondendo (24→40 strati) e raddoppiando gli esperti (32→64 per blocco MoE), mantenendo fisso il size nascosto (2048), il routing top-4 e un rapporto attenzione:conv di 1:3. > I parametri totali crescono di 3× (8.3B→24B) > I parametri attivi crescono solo di ~1.5× (1.5B→2.3B) Il costo di inferenza segue il percorso attivo (non il conteggio totale dei parametri) mantenendo la latenza e l'energia allineate con i vincoli di distribuzione nel mondo reale. La capacità scala. Il calcolo per token rimane snello.

Abbiamo spedito questo come un modello di istruzione tradizionale (senza tracce di ragionamento) utilizzando un post-training leggero. Attraverso: > GPQA Diamond > MMLU-Pro > IFEval > IFBench > GSM8K > MATH-500 La qualità migliora in modo log-lineare da 350M → 24B. Questo intervallo di parametri quasi 100× conferma il comportamento di scalabilità prevedibile dell'architettura ibrida LFM2, senza effetto soffitto per i modelli piccoli.

LFM2-24B-A2B viene fornito con supporto day-zero per llama.cpp, vLLM e SGLang, CPU o GPU direttamente dalla scatola, con quantizzazioni GGUF (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16). Su CPU (AMD Ryzen AI Max+ 395, Q4_K_M), mantiene ~93 tok/s a 8K di contesto, superando modelli MoE di dimensioni simili pur mantenendo una forte scalabilità nel lungo contesto.

Su CPU (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp), LFM2-24B-A2B mantiene un forte throughput di prefill attraverso contesti da 1K a 8K (~1.132 tok/s a 8K), rimanendo competitivo con modelli MoE di dimensioni simili. Su GPU (H100 SXM5, SGLang/vLLM), dimostra una scalabilità favorevole del throughput di output sotto un servizio ad alta concorrenza realistico, critico per il deployment economico e i carichi di lavoro RLVR.

Su GPU (H100 SXM5, vLLM), LFM2-24B-A2B scala a ~26.8K throughput totale di token (tok/s) con 1024 richieste concorrenti (1024-token massimi di input / 512-token massimi di output), superando modelli MoE di dimensioni simili sotto batching continuo. Misurato con prefill+decode intercalati realistici — progettato per servire a scala di produzione e carichi di lavoro RL.

Principali

Ranking

Preferiti