Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vandaag brengen we ons grootste LFM2-model uit: LFM2-24B-A2B 🐘
> 24B totale parameters
> 2.3B actief per token
> Gebouwd op onze hybride, hardware-bewuste LFM2-architectuur
Het combineert het snelle, geheugenefficiënte ontwerp van LFM2 met een Mixture of Experts-opstelling, zodat slechts 2.3B parameters bij elke uitvoering worden geactiveerd.
Het resultaat: best-in-class efficiëntie, snelle edge-inferentie en voorspelbare log-lineaire schaalvergroting, allemaal in een 32GB, 2B-actieve MoE-voetafdruk.
🧵

Met deze release beslaat de LFM2-familie bijna twee ordes van grootte: van LFM2-350M tot LFM2-24B-A2B. Elke stap omhoog in schaal heeft consistente kwaliteitsverbeteringen op standaard benchmarks opgeleverd.
We hebben LFM2-24B-A2B ontworpen om in 32 GB RAM te passen, waardoor het uitvoerbaar is op consumentenlaptops en desktops met een geïntegreerde grafische processor (iGPU) en een speciale neurale verwerkingsunit (NPU).
> LFM2-24B-A2B breidt de LFM2-familie uit van 350M → 24B parameters
> Bijna twee ordes van grootte in schaal met consistente, log-lineaire kwaliteitsverbeteringen over benchmarks
Schaalrecept: Ga dieper. Voeg experts toe. Houd het actieve pad slank.
We hebben LFM2-24B-A2B geschaald door dieper te gaan (24→40 lagen) en het aantal experts te verdubbelen (32→64 per MoE-blok), terwijl we de verborgen grootte (2048), top-4 routering en een 1:3 aandacht:conv-verhouding vast hielden.
> Totaal aantal parameters groeit 3× (8,3B→24B)
> Actieve parameters groeien slechts ~1,5× (1,5B→2,3B)
De inferentiekosten volgen het actieve pad (niet het totale aantal parameters), waardoor latentie en energie in lijn blijven met de beperkingen van de echte wereld.
De capaciteit schaalt. Per-token berekeningen blijven slank.

We hebben dit verzonden als een traditioneel instructiemodel (geen redeneertraces) met behulp van lichte post-training.
Over:
> GPQA Diamond
> MMLU-Pro
> IFEval
> IFBench
> GSM8K
> MATH-500
De kwaliteit verbetert log-lineair van 350M → 24B.
Dit bijna 100× parameterbereik bevestigt het voorspelbare schaalgedrag van de hybride LFM2-architectuur, zonder een plafondeffect voor kleine modellen.

LFM2-24B-A2B wordt geleverd met ondersteuning vanaf dag één voor llama.cpp, vLLM en SGLang, CPU of GPU direct uit de doos, met GGUF-kwantisaties (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16).
Op CPU (AMD Ryzen AI Max+ 395, Q4_K_M) haalt het ~93 tok/s bij 8K context, en presteert het beter dan vergelijkbare MoE-modellen terwijl het sterke lange-context schaalbaarheid behoudt.

Op CPU (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp) behoudt LFM2-24B-A2B een sterke prefill doorvoer over 1K→8K contexten (~1.132 tok/s bij 8K), en blijft het concurrerend met vergelijkbaar geconfigureerde MoE-modellen.
Op GPU (H100 SXM5, SGLang/vLLM) toont het een gunstige output doorvoerschaal onder realistische hoge gelijktijdige bediening, wat cruciaal is voor kostenefficiënte implementatie en RLVR-werkbelastingen.

Op GPU (H100 SXM5, vLLM) schaalt LFM2-24B-A2B naar ~26,8K totale tokens doorvoer (tok/s) bij 1024 gelijktijdige verzoeken (1024-max-input-tokens / 512-max-output-tokens), en presteert beter dan vergelijkbare MoE-modellen onder continue batching.
Gemeten met realistische afgewisselde prefill+decode — gebouwd voor productie-schaal dienstverlening en RL-werkbelastingen.

68
Boven
Positie
Favorieten
