Dziś wydajemy nasz największy model LFM2: LFM2-24B-A2B 🐘 > 24B całkowitych parametrów > 2.3B aktywnych na token > Zbudowany na naszej hybrydowej, świadomej sprzętu architekturze LFM2 Łączy szybki, efektywny pod względem pamięci design LFM2 z ustawieniem Mixture of Experts, dzięki czemu tylko 2.3B parametrów aktywuje się przy każdym uruchomieniu. Rezultat: najlepsza w swojej klasie efektywność, szybkie wnioskowanie na krawędzi i przewidywalne log-liniowe skalowanie, wszystko w 32GB, 2B-aktywnym MoE.
Dzięki tej wersji rodzina LFM2 obejmuje niemal dwa rzędy wielkości: od LFM2-350M do LFM2-24B-A2B. Każdy krok w górę w skali przyniósł stałe zyski jakościowe w standardowych benchmarkach. Zaprojektowaliśmy LFM2-24B-A2B, aby zmieścił się w 32 GB RAM, co umożliwia uruchomienie go na laptopach i komputerach stacjonarnych dla konsumentów z zintegrowanym procesorem graficznym (iGPU) oraz dedykowaną jednostką przetwarzania neuronowego (NPU). > LFM2-24B-A2B rozszerza rodzinę LFM2 z 350M → 24B parametrów > Niemal dwa rzędy wielkości z konsekwentnymi, logarytmiczno-liniowymi poprawami jakości w różnych benchmarkach
Przepis na skalowanie: Idź głębiej. Dodaj ekspertów. Utrzymuj aktywną ścieżkę wąską. Zwiększyliśmy LFM2-24B-A2B, idąc głębiej (24→40 warstw) i podwajając ekspertów (32→64 na blok MoE), jednocześnie utrzymując rozmiar ukryty (2048), top-4 routingu i stosunek uwagi do konwolucji 1:3 na stałym poziomie. > Całkowita liczba parametrów wzrasta 3× (8.3B→24B) > Aktywne parametry rosną tylko o ~1.5× (1.5B→2.3B) Koszt wnioskowania śledzi aktywną ścieżkę (nie całkowitą liczbę parametrów), utrzymując opóźnienia i zużycie energii zgodnie z rzeczywistymi ograniczeniami wdrożenia. Pojemność rośnie. Obliczenia na token pozostają wąskie.
Wysłaliśmy to jako tradycyjny model instrukcji (bez śladów rozumowania) przy użyciu lekkiego post-treningu. W zakresie: > GPQA Diamond > MMLU-Pro > IFEval > IFBench > GSM8K > MATH-500 Jakość poprawia się logarytmicznie od 350M do 24B. Ten prawie 100× zakres parametrów potwierdza przewidywalne zachowanie skalowania architektury hybrydowej LFM2, bez efektu sufitowego dla małych modeli.
LFM2-24B-A2B jest dostarczany z wsparciem od dnia zero dla llama.cpp, vLLM i SGLang, CPU lub GPU od razu po wyjęciu z pudełka, z kwantyzacjami GGUF (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16). Na CPU (AMD Ryzen AI Max+ 395, Q4_K_M) osiąga ~93 tok/s przy 8K kontekście, przewyższając modele MoE o podobnej wielkości, jednocześnie utrzymując silne skalowanie w długim kontekście.
Na CPU (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp), LFM2-24B-A2B utrzymuje silny przepływ prefill w kontekście 1K→8K (~1,132 tok/s przy 8K), pozostając konkurencyjnym w porównaniu do modeli MoE o podobnych rozmiarach. Na GPU (H100 SXM5, SGLang/vLLM) wykazuje korzystne skalowanie przepływu wyjściowego w warunkach realistycznego wysokiego współczynnika równoczesności, co jest kluczowe dla efektywnego kosztowo wdrożenia i obciążeń RLVR.
Na GPU (H100 SXM5, vLLM), LFM2-24B-A2B osiąga ~26,8K całkowitego przepustowości tokenów (tok/s) przy 1024 równoczesnych żądaniach (1024-max-input-tokens / 512-max-output-tokens), przewyższając podobnej wielkości modele MoE w przypadku ciągłego pakowania. Mierzone z realistycznym przeplatanym prefill+decode — zaprojektowane do obsługi na skalę produkcyjną i obciążeń RL.
57