Vandaag brengen we ons grootste LFM2-model uit: LFM2-24B-A2B 🐘 > 24B totale parameters > 2.3B actief per token > Gebouwd op onze hybride, hardware-bewuste LFM2-architectuur Het combineert het snelle, geheugenefficiënte ontwerp van LFM2 met een Mixture of Experts-opstelling, zodat slechts 2.3B parameters bij elke uitvoering worden geactiveerd. Het resultaat: best-in-class efficiëntie, snelle edge-inferentie en voorspelbare log-lineaire schaalvergroting, allemaal in een 32GB, 2B-actieve MoE-voetafdruk. 🧵
Met deze release beslaat de LFM2-familie bijna twee ordes van grootte: van LFM2-350M tot LFM2-24B-A2B. Elke stap omhoog in schaal heeft consistente kwaliteitsverbeteringen op standaard benchmarks opgeleverd. We hebben LFM2-24B-A2B ontworpen om in 32 GB RAM te passen, waardoor het uitvoerbaar is op consumentenlaptops en desktops met een geïntegreerde grafische processor (iGPU) en een speciale neurale verwerkingsunit (NPU). > LFM2-24B-A2B breidt de LFM2-familie uit van 350M → 24B parameters > Bijna twee ordes van grootte in schaal met consistente, log-lineaire kwaliteitsverbeteringen over benchmarks
Schaalrecept: Ga dieper. Voeg experts toe. Houd het actieve pad slank. We hebben LFM2-24B-A2B geschaald door dieper te gaan (24→40 lagen) en het aantal experts te verdubbelen (32→64 per MoE-blok), terwijl we de verborgen grootte (2048), top-4 routering en een 1:3 aandacht:conv-verhouding vast hielden. > Totaal aantal parameters groeit 3× (8,3B→24B) > Actieve parameters groeien slechts ~1,5× (1,5B→2,3B) De inferentiekosten volgen het actieve pad (niet het totale aantal parameters), waardoor latentie en energie in lijn blijven met de beperkingen van de echte wereld. De capaciteit schaalt. Per-token berekeningen blijven slank.
We hebben dit verzonden als een traditioneel instructiemodel (geen redeneertraces) met behulp van lichte post-training. Over: > GPQA Diamond > MMLU-Pro > IFEval > IFBench > GSM8K > MATH-500 De kwaliteit verbetert log-lineair van 350M → 24B. Dit bijna 100× parameterbereik bevestigt het voorspelbare schaalgedrag van de hybride LFM2-architectuur, zonder een plafondeffect voor kleine modellen.
LFM2-24B-A2B wordt geleverd met ondersteuning vanaf dag één voor llama.cpp, vLLM en SGLang, CPU of GPU direct uit de doos, met GGUF-kwantisaties (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16). Op CPU (AMD Ryzen AI Max+ 395, Q4_K_M) haalt het ~93 tok/s bij 8K context, en presteert het beter dan vergelijkbare MoE-modellen terwijl het sterke lange-context schaalbaarheid behoudt.
Op CPU (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp) behoudt LFM2-24B-A2B een sterke prefill doorvoer over 1K→8K contexten (~1.132 tok/s bij 8K), en blijft het concurrerend met vergelijkbaar geconfigureerde MoE-modellen. Op GPU (H100 SXM5, SGLang/vLLM) toont het een gunstige output doorvoerschaal onder realistische hoge gelijktijdige bediening, wat cruciaal is voor kostenefficiënte implementatie en RLVR-werkbelastingen.
Op GPU (H100 SXM5, vLLM) schaalt LFM2-24B-A2B naar ~26,8K totale tokens doorvoer (tok/s) bij 1024 gelijktijdige verzoeken (1024-max-input-tokens / 512-max-output-tokens), en presteert beter dan vergelijkbare MoE-modellen onder continue batching. Gemeten met realistische afgewisselde prefill+decode — gebouwd voor productie-schaal dienstverlening en RL-werkbelastingen.
68