Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
I dag lanserer vi vår største LFM2-modell: LFM2-24B-A2B 🐘
> 24B totale parametere
> 2,3 milliarder aktive per token
> Bygget på vår hybride, maskinvarebevisste LFM2-arkitektur
Den kombinerer LFM2s raske, minneeffektive design med et Mixture of Experts-oppsett, slik at kun 2,3 milliarder parametere aktiverer hver kjøring.
Resultatet: beste effektivitet i klassen, rask kantinferens og forutsigbar log-lineær skalering, alt i et MoE-fotavtrykk på 32GB, 2B aktivt.
🧵

Med denne utgivelsen strekker LFM2-familien seg over nesten to størrelsesordener: fra LFM2-350M til LFM2-24B-A2B. Hvert steg opp i skala har gitt jevne kvalitetsforbedringer på standard referansepunkter.
Vi designet LFM2-24B-A2B for å passe inn i 32 GB RAM, slik at den kan kjøres på forbrukerbærbare og stasjonære PC-er med integrert grafikkprosessor (iGPU) og dedikert nevral prosesseringsenhet (NPU).
> LFM2-24B-A2B utvider LFM2-familien fra 350M → 24B parametere
> Nesten to størrelsesordener med konsistente, log-lineære kvalitetsforbedringer på tvers av referansepunkter
Skaleringsoppskrift: Gå dypere. Legg til eksperter. Hold den aktive stien slank.
Vi skalerte LFM2-24B-A2B ved å gå dypere (24→40 lag) og doble eksperter (32→64 per MoE-blokk), samtidig som vi holdt skjult størrelse (2048), topp-4 ruting og et 1:3 oppmerksomhet:konv-forhold fast.
> Totalt antall parametere vokser med 3× (8,3 milliarder→24 milliarder)
> Aktive parametere vokser bare ~1,5× (1,5B→2,3B)
Inferenskostnad sporer den aktive stien (ikke totalt antall parametere), og holder latens og energi i samsvar med reelle distribusjonsbegrensninger.
Kapasiteten skalerer. Per-token-beregningen forblir slank.

Vi leverte dette som en tradisjonell instruksjonsmodell (ingen resonnementspor) med lett ettertrening.
Over:
> GPQA-diamant
> MMLU-Pro
> IFEval
> IFBench
> GSM8K
> MATH-500
Kvaliteten forbedres log-lineært fra 350M → 24B.
Dette nesten 100 × parameterområdet bekrefter forutsigbar skaleringsatferd for den hybride LFM2-arkitekturen, ingen liten modell-takeffekt.

LFM2-24B-A2B leveres med day-zero-støtte på tvers av llama.cpp, vLLM og SGLang, CPU eller GPU rett ut av boksen, med GGUF-kvantiseringer (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16).
På CPU (AMD Ryzen AI Max+ 395, Q4_K_M) opprettholder den ~93 tok/s ved 8K kontekst, og overgår MoE-modeller i tilsvarende størrelse samtidig som den opprettholder sterk lang-kontekst skalering.

På CPU (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp) opprettholder LFM2-24B-A2B sterk prefill-gjennomstrømning over 1K→8K-kontekster (~1 132 tok/s ved 8K), og forblir konkurransedyktig med tilsvarende MoE-modeller.
På GPU (H100 SXM5, SGLang/vLLM) viser det gunstig skalering av output-gjennomstrømning under realistisk høy-samtidighetsservering, noe som er avgjørende for kostnadseffektiv distribusjon og RLVR-arbeidsbelastninger.

På GPU (H100 SXM5, vLLM) skalerer LFM2-24B-A2B til ~26,8K total token-gjennomstrømning (tok/s) ved 1024 samtidige forespørsler (1024-max-input-tokens / 512-max-output-tokens), og overgår MoE-modeller av tilsvarende størrelse under kontinuerlig batching.
Målt med realistisk interleaved prefill+dekoding — bygget for produksjonsskala servering og RL-arbeidsbelastninger.

50
Topp
Rangering
Favoritter
