I dag lanserer vi vår største LFM2-modell: LFM2-24B-A2B 🐘 > 24B totale parametere > 2,3 milliarder aktive per token > Bygget på vår hybride, maskinvarebevisste LFM2-arkitektur Den kombinerer LFM2s raske, minneeffektive design med et Mixture of Experts-oppsett, slik at kun 2,3 milliarder parametere aktiverer hver kjøring. Resultatet: beste effektivitet i klassen, rask kantinferens og forutsigbar log-lineær skalering, alt i et MoE-fotavtrykk på 32GB, 2B aktivt. 🧵
Med denne utgivelsen strekker LFM2-familien seg over nesten to størrelsesordener: fra LFM2-350M til LFM2-24B-A2B. Hvert steg opp i skala har gitt jevne kvalitetsforbedringer på standard referansepunkter. Vi designet LFM2-24B-A2B for å passe inn i 32 GB RAM, slik at den kan kjøres på forbrukerbærbare og stasjonære PC-er med integrert grafikkprosessor (iGPU) og dedikert nevral prosesseringsenhet (NPU). > LFM2-24B-A2B utvider LFM2-familien fra 350M → 24B parametere > Nesten to størrelsesordener med konsistente, log-lineære kvalitetsforbedringer på tvers av referansepunkter
Skaleringsoppskrift: Gå dypere. Legg til eksperter. Hold den aktive stien slank. Vi skalerte LFM2-24B-A2B ved å gå dypere (24→40 lag) og doble eksperter (32→64 per MoE-blokk), samtidig som vi holdt skjult størrelse (2048), topp-4 ruting og et 1:3 oppmerksomhet:konv-forhold fast. > Totalt antall parametere vokser med 3× (8,3 milliarder→24 milliarder) > Aktive parametere vokser bare ~1,5× (1,5B→2,3B) Inferenskostnad sporer den aktive stien (ikke totalt antall parametere), og holder latens og energi i samsvar med reelle distribusjonsbegrensninger. Kapasiteten skalerer. Per-token-beregningen forblir slank.
Vi leverte dette som en tradisjonell instruksjonsmodell (ingen resonnementspor) med lett ettertrening. Over: > GPQA-diamant > MMLU-Pro > IFEval > IFBench > GSM8K > MATH-500 Kvaliteten forbedres log-lineært fra 350M → 24B. Dette nesten 100 × parameterområdet bekrefter forutsigbar skaleringsatferd for den hybride LFM2-arkitekturen, ingen liten modell-takeffekt.
LFM2-24B-A2B leveres med day-zero-støtte på tvers av llama.cpp, vLLM og SGLang, CPU eller GPU rett ut av boksen, med GGUF-kvantiseringer (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16). På CPU (AMD Ryzen AI Max+ 395, Q4_K_M) opprettholder den ~93 tok/s ved 8K kontekst, og overgår MoE-modeller i tilsvarende størrelse samtidig som den opprettholder sterk lang-kontekst skalering.
På CPU (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp) opprettholder LFM2-24B-A2B sterk prefill-gjennomstrømning over 1K→8K-kontekster (~1 132 tok/s ved 8K), og forblir konkurransedyktig med tilsvarende MoE-modeller. På GPU (H100 SXM5, SGLang/vLLM) viser det gunstig skalering av output-gjennomstrømning under realistisk høy-samtidighetsservering, noe som er avgjørende for kostnadseffektiv distribusjon og RLVR-arbeidsbelastninger.
På GPU (H100 SXM5, vLLM) skalerer LFM2-24B-A2B til ~26,8K total token-gjennomstrømning (tok/s) ved 1024 samtidige forespørsler (1024-max-input-tokens / 512-max-output-tokens), og overgår MoE-modeller av tilsvarende størrelse under kontinuerlig batching. Målt med realistisk interleaved prefill+dekoding — bygget for produksjonsskala servering og RL-arbeidsbelastninger.
50