Heute veröffentlichen wir unser größtes LFM2-Modell: LFM2-24B-A2B 🐘 > 24B Gesamtparameter > 2,3B aktiv pro Token > Basierend auf unserer hybriden, hardwarebewussten LFM2-Architektur Es kombiniert das schnelle, speichereffiziente Design von LFM2 mit einem Mixture of Experts-Setup, sodass nur 2,3B Parameter bei jedem Lauf aktiviert werden. Das Ergebnis: branchenführende Effizienz, schnelle Edge-Inferenz und vorhersehbares log-lineares Scaling, alles in einem 32GB, 2B-aktiven MoE-Fußabdruck. 🧵
Mit diesem Release umfasst die LFM2-Familie nahezu zwei Größenordnungen: von LFM2-350M bis LFM2-24B-A2B. Jeder Schritt in der Skalierung hat konsistente Qualitätsgewinne bei Standardbenchmarks gebracht. Wir haben LFM2-24B-A2B so konzipiert, dass es in 32 GB RAM passt, wodurch es auf Consumer-Laptops und -Desktops mit integriertem Grafikprozessor (iGPU) und dedizierter neuronaler Verarbeitungseinheit (NPU) lauffähig ist. > LFM2-24B-A2B erweitert die LFM2-Familie von 350M → 24B Parametern > Nahezu zwei Größenordnungen in der Skalierung mit konsistenten, log-linearen Qualitätsverbesserungen über Benchmarks hinweg.
Skalierungsrezept: Gehe tiefer. Füge Experten hinzu. Halte den aktiven Pfad schlank. Wir haben LFM2-24B-A2B skaliert, indem wir tiefer gegangen sind (24→40 Schichten) und die Experten verdoppelt haben (32→64 pro MoE-Block), während wir die versteckte Größe (2048), das Top-4-Routing und ein 1:3-Verhältnis von Aufmerksamkeit zu Konv. fixiert haben. > Gesamtparameter wachsen um das 3-fache (8,3B→24B) > Aktive Parameter wachsen nur um ~1,5× (1,5B→2,3B) Die Inferenzkosten folgen dem aktiven Pfad (nicht der Gesamtparameteranzahl) und halten Latenz und Energie im Einklang mit den Einschränkungen der realen Bereitstellung. Die Kapazität skaliert. Die Berechnung pro Token bleibt schlank.
Wir haben dies als traditionelles Instruct-Modell (keine Begründungsspuren) mit leichtem Post-Training versendet. Über: > GPQA Diamond > MMLU-Pro > IFEval > IFBench > GSM8K > MATH-500 Die Qualität verbessert sich logarithmisch von 350M → 24B. Dieser nahezu 100× Parameterbereich bestätigt das vorhersehbare Skalierungsverhalten der hybriden LFM2-Architektur, ohne den Effekt einer kleinen Modellobergrenze.
LFM2-24B-A2B wird mit Day-Zero-Unterstützung für llama.cpp, vLLM und SGLang, CPU oder GPU direkt einsatzbereit, mit GGUF-Quantisierungen (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16). Auf der CPU (AMD Ryzen AI Max+ 395, Q4_K_M) erreicht es ~93 tok/s bei 8K Kontext und übertrifft ähnlich große MoE-Modelle, während es eine starke Skalierung bei langen Kontexten beibehält.
Auf CPU (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp) hält LFM2-24B-A2B einen starken Prefill-Durchsatz über 1K→8K Kontexte (~1.132 tok/s bei 8K) und bleibt wettbewerbsfähig mit ähnlich großen MoE-Modellen. Auf GPU (H100 SXM5, SGLang/vLLM) zeigt es eine günstige Skalierung des Ausgabedurchsatzes unter realistischen Hochkonkurrenz-Betriebsbedingungen, was entscheidend für kosteneffiziente Bereitstellung und RLVR-Arbeitslasten ist.
Auf GPU (H100 SXM5, vLLM) skaliert LFM2-24B-A2B auf ~26,8K Gesamt-Token-Durchsatz (tok/s) bei 1024 gleichzeitigen Anfragen (1024-max-input-tokens / 512-max-output-tokens) und übertrifft ähnlich große MoE-Modelle unter kontinuierlichem Batching. Gemessen mit realistischen, ineinander geschachtelten Prefill+Decode — entwickelt für den produktionsgerechten Einsatz und RL-Workloads.
71