Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Idag släpper vi vår största LFM2-modell: LFM2-24B-A2B 🐘
> 24 miljarder totala parametrar
> 2,3 miljarder aktiva per token
> Byggt på vår hybrida, hårdvarumedvetna LFM2-arkitektur
Den kombinerar LFM2:s snabba, minneseffektiva design med en Mixture of Experts-lösning, så endast 2,3 miljarder parametrar aktiverar varje körning.
Resultatet: bästa effektivitet i klassen, snabb kantinferens och förutsägbar log-linjär skalning, allt i ett MoE-avtryck på 32GB, 2B aktivt.
🧵

Med denna lansering sträcker sig LFM2-familjen över nästan två storleksordningar: från LFM2-350M till LFM2-24B-A2B. Varje steg upp i skala har gett konsekventa kvalitetsförbättringar på standardbenchmarks.
Vi designade LFM2-24B-A2B för att rymma 32 GB RAM, vilket gjorde det körbart på konsumentbärbara datorer och stationära datorer med integrerad grafikprocessor (iGPU) och dedikerad neural processorenhet (NPU).
> LFM2-24B-A2B utökar LFM2-familjen från 350M → 24B-parametrar
> Nästan två storleksordningar med konsekventa, log-linjära kvalitetsförbättringar över benchmarks
Skalningsrecept: Gå djupare. Lägg till experter. Håll den aktiva vägen smal.
Vi skalade LFM2-24B-A2B genom att gå djupare (24→40 lager) och dubbla experter (32→64 per MoE-block), samtidigt som vi behöll dold storlek (2048), topp-4-routning och ett 1:3 uppmärksamhet:konv-förhållande fast.
> Totala parametrar växer med 3× (8,3 →24 miljarder)
> Aktiva parametrar växer endast ~1,5× (1,5 →2,3 B)
Inferenskostnaden spårar den aktiva vägen (inte det totala parameterantalet) och håller latens och energi i linje med verkliga distributionsbegränsningar.
Kapacitetsskalor. Per-token-beräkningen förblir lean.

Vi levererade detta som en traditionell instruktionsmodell (inga resonerande spår) med lättvikt efterträning.
Över:
> GPQA-diamanten
> MMLU-Pro
> IFEval
> IFBench
> GSM8K
> MATH-500
Kvaliteten förbättras loglinjärt från 350M → 24B.
Detta nästan 100× parameterintervall bekräftar förutsägbart skalningsbeteende hos den hybrida LFM2-arkitekturen, ingen effekt av taket i små modeller.

LFM2-24B-A2B levereras med day-zero-stöd över llama.cpp, vLLM och SGLang, CPU eller GPU direkt ur lådan, med GGUF-kvantiseringar (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16).
På CPU (AMD Ryzen AI Max+ 395, Q4_K_M) klarar den ~93 tok/s vid 8K kontext, överträffar MoE-modeller i liknande storlek samtidigt som den behåller stark långkontextskalning.

På CPU (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp) upprätthåller LFM2-24B-A2B stark prefill-genomströmning över 1K→8K-kontexter (~1 132 tok/s vid 8K), och förblir konkurrenskraftig med liknande MoE-modeller.
På GPU (H100 SXM5, SGLang/vLLM) visar det gynnsam utdatagenomströmningsskalning under realistisk hög-samtidighetsserving, vilket är avgörande för kostnadseffektiv distribution och RLVR-arbetsbelastningar.

På GPU (H100 SXM5, vLLM) skalar LFM2-24B-A2B till ~26,8K total token-genomströmning (tok/s) vid 1024 samtidiga förfrågningar (1024-max-input-tokens / 512-max-output-tokens), och överträffar liknande MoE-modeller under kontinuerlig batchning.
Mätt med realistisk interleaved prefill+decode — byggd för produktionsskala servering och RL-arbetsbelastningar.

76
Topp
Rankning
Favoriter
