Idag släpper vi vår största LFM2-modell: LFM2-24B-A2B 🐘 > 24 miljarder totala parametrar > 2,3 miljarder aktiva per token > Byggt på vår hybrida, hårdvarumedvetna LFM2-arkitektur Den kombinerar LFM2:s snabba, minneseffektiva design med en Mixture of Experts-lösning, så endast 2,3 miljarder parametrar aktiverar varje körning. Resultatet: bästa effektivitet i klassen, snabb kantinferens och förutsägbar log-linjär skalning, allt i ett MoE-avtryck på 32GB, 2B aktivt. 🧵
Med denna lansering sträcker sig LFM2-familjen över nästan två storleksordningar: från LFM2-350M till LFM2-24B-A2B. Varje steg upp i skala har gett konsekventa kvalitetsförbättringar på standardbenchmarks. Vi designade LFM2-24B-A2B för att rymma 32 GB RAM, vilket gjorde det körbart på konsumentbärbara datorer och stationära datorer med integrerad grafikprocessor (iGPU) och dedikerad neural processorenhet (NPU). > LFM2-24B-A2B utökar LFM2-familjen från 350M → 24B-parametrar > Nästan två storleksordningar med konsekventa, log-linjära kvalitetsförbättringar över benchmarks
Skalningsrecept: Gå djupare. Lägg till experter. Håll den aktiva vägen smal. Vi skalade LFM2-24B-A2B genom att gå djupare (24→40 lager) och dubbla experter (32→64 per MoE-block), samtidigt som vi behöll dold storlek (2048), topp-4-routning och ett 1:3 uppmärksamhet:konv-förhållande fast. > Totala parametrar växer med 3× (8,3 →24 miljarder) > Aktiva parametrar växer endast ~1,5× (1,5 →2,3 B) Inferenskostnaden spårar den aktiva vägen (inte det totala parameterantalet) och håller latens och energi i linje med verkliga distributionsbegränsningar. Kapacitetsskalor. Per-token-beräkningen förblir lean.
Vi levererade detta som en traditionell instruktionsmodell (inga resonerande spår) med lättvikt efterträning. Över: > GPQA-diamanten > MMLU-Pro > IFEval > IFBench > GSM8K > MATH-500 Kvaliteten förbättras loglinjärt från 350M → 24B. Detta nästan 100× parameterintervall bekräftar förutsägbart skalningsbeteende hos den hybrida LFM2-arkitekturen, ingen effekt av taket i små modeller.
LFM2-24B-A2B levereras med day-zero-stöd över llama.cpp, vLLM och SGLang, CPU eller GPU direkt ur lådan, med GGUF-kvantiseringar (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16). På CPU (AMD Ryzen AI Max+ 395, Q4_K_M) klarar den ~93 tok/s vid 8K kontext, överträffar MoE-modeller i liknande storlek samtidigt som den behåller stark långkontextskalning.
På CPU (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp) upprätthåller LFM2-24B-A2B stark prefill-genomströmning över 1K→8K-kontexter (~1 132 tok/s vid 8K), och förblir konkurrenskraftig med liknande MoE-modeller. På GPU (H100 SXM5, SGLang/vLLM) visar det gynnsam utdatagenomströmningsskalning under realistisk hög-samtidighetsserving, vilket är avgörande för kostnadseffektiv distribution och RLVR-arbetsbelastningar.
På GPU (H100 SXM5, vLLM) skalar LFM2-24B-A2B till ~26,8K total token-genomströmning (tok/s) vid 1024 samtidiga förfrågningar (1024-max-input-tokens / 512-max-output-tokens), och överträffar liknande MoE-modeller under kontinuerlig batchning. Mätt med realistisk interleaved prefill+decode — byggd för produktionsskala servering och RL-arbetsbelastningar.
76