Dnes uvádíme na trh náš největší model LFM2: LFM2-24B-A2B 🐘 > Celkové parametry 24B > 2,3 miliardy na token > Postaveno na naší hybridní, hardwarově uvědomělé architektuře LFM2 Kombinuje rychlý a paměťově úsporný design LFM2 s mixem expertů, takže při každém běhu se aktivují pouze 2,3B parametry. Výsledek: nejlepší efektivita ve třídě, rychlá edge inference a předvídatelné log-lineární škálování, to vše v 32GB, 2B aktivním MoE prostoru. 🧵
S tímto vydáním se rodina LFM2 rozprostírá téměř o dva řády velikosti: od LFM2-350M po LFM2-24B-A2B. Každý krok nahoru v měřítku přinesl konzistentní zlepšení kvality oproti standardním benchmarkům. Navrhli jsme LFM2-24B-A2B tak, aby pojmul 32 GB RAM, což umožňuje provoz na spotřebitelských noteboocích a stolních počítačích s integrovaným grafickým procesorem (iGPU) a dedikovanou neuronovou procesorovou jednotkou (NPU). > LFM2-24B-A2B rozšiřuje rodinu LFM2 z 350M → parametrů 24B > Téměř dva řády škálování s konzistentními, logaritmickými kvalitativními zlepšeními napříč benchmarky
Recept na škálování: Jděte hlouběji. Přidejte odborníky. Udržujte aktivní dráhu štíhlou. LFM2-24B-A2B jsme škálovali hlubšími vrstvami (24→40 vrstev) a zdvojnásobením expertů (32→64 na MoE blok), přičemž jsme ponechali skrytou velikost (2048), top-4 směrování a poměr pozornosti k konvici 1:3 pevně daný. > Celkový počet parametrů roste o 3× (8,3B→24B) > Aktivní parametry rostou pouze o ~1,5× (1,5B→2,3B) Náklady na inferenci sledují aktivní cestu (nikoli celkový počet parametrů), udržují latenci a energii v souladu s reálnými omezeními nasazení. Kapacitní škály. Výpočet na token zůstává štíhlý.
Dodali jsme to jako tradiční instrukční model (bez stopových argumentů) s lehkým post-trainingem. Přes ně: > GPQA diamant > MMLU-Pro > IFEval > IFBench > GSM8K > MATH-500 Kvalita se lineárně zlepšuje z 350M → 24B. Tento téměř 100× parametrový rozsah potvrzuje předvídatelné škálování hybridní architektury LFM2, bez efektu stropu malého modelu.
LFM2-24B-A2B je dodáván s podporou day-zero napříč llama.cpp, vLLM a SGLang, CPU nebo GPU hned po vybalení, s GGUF kvantizacemi (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16). Na CPU (AMD Ryzen AI Max+ 395, Q4_K_M) udržuje rychlost ~93 tok/s při 8K kontextu, což překonává podobně velké modely MoE při zachování silného škálování v dlouhém kontextu.
Na CPU (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp) LFM2-24B-A2B udržuje silnou propustnost předplnění v kontextech 1K→8K (~1 132 tok/s při 8K), čímž zůstává konkurenceschopný vůči podobně velkým modelům MoE. Na GPU (H100 SXM5, SGLang/vLLM) prokazuje příznivé škálování propustnosti výstupu při realistickém rychlém servisu s vysokou souběžností, což je klíčové pro nákladově efektivní nasazení a RLVR pracovní zátěže.
Na GPU (H100 SXM5, vLLM) LFM2-24B-A2B škáluje na ~26,8K celkové propustnosti tokenů (tok/s) při 1024 současných požadavcích (1024-max-vstup-tokenů / 512-max-výstupních tokenů), čímž překonává podobně velké modely MoE při kontinuálním dávkování. Měřeno realistickým prokládaným prefill+dekódováním — navrženo pro produkční observování a RL pracovní zátěže.
73