Bugün, en büyük LFM2 modelimizi piyasaya sürdük: LFM2-24B-A2B 🐘 > 24B toplam parametreleri > her token başına 2.3B aktif > Hibrit, donanım farkında LFM2 mimarimiz üzerine inşa edilmiştir LFM2'nin hızlı ve bellek verimli tasarımını Pisporlerin Karışımı kurulumuyla birleştiriyor, böylece her çalışmada sadece 2.3B parametre aktive oluyor. Sonuç olarak: sınıfının en iyi verimliliği, hızlı kenar çıkarımı ve öngörülebilir log-lineer ölçeklendirme, hepsi 32GB, 2B-aktif MoE alanında. 🧵
Bu sürümle LFM2 ailesi neredeyse iki büyüklük mertebesine ulaşıyor: LFM2-350M'den LFM2-24B-A2B'ye kadar. Her ölçek yükselişi standart kıyaslamalarda tutarlı kalite artışları getirdi. LFM2-24B-A2B'yi 32 GB RAM sığdıracak şekilde tasarladık; böylece entegre grafik işlemci (iGPU) ve özel sinir işlemci (NPU) ile tüketici dizüstü bilgisayarları ve masaüstü bilgisayarlarda çalışabilir hale getirdik. > LFM2-24B-A2B, LFM2 ailesini 350M→den 24B parametreye genişletir > Neredeyse iki büyüklük derecesi ölçek ve kıyaslamalar arasında tutarlı, log-lineer kalite iyileştirmeleri
Ölçeklendirme tarifi: Daha derine in. Uzmanlar ekleyin. Aktif yolu ince tutun. LFM2-24B-A2B'yi daha derine (24→40 katman) ve uzmanları ikiye katlayarak (MoE bloğu başına 32→64) ölçeklendirdik, gizli boyut (2048), top-4 yönlendirme ve 1:3 dikkat:konv oranını sabit tuttuk. > Toplam parametreler 3× (8.3B→24B) büyüyor > Aktif parametreler sadece ~1.5× (1.5B→2.3B) büyüyor. Çıkarım maliyeti, aktif yolu (toplam parametre sayısı değil) takip eder ve gecikme ile enerjiyi gerçek dünya dağıtım kısıtlamalarıyla uyumlu tutar. Kapasite ölçekleri. Token başına hesaplama az kalır.
Bunu geleneksel bir talimat modeli olarak (akıl yürütme izleri olmadan) ve hafif eğitim sonrası programla gönderdik. Karşısında: > GPQA Elmas > MMLU-Pro > IFEval > IFBench > GSM8K > MATH-500 Kalite, 350M'den 24B'ye doğru doğrusal olarak → yükseliyor. Bu yaklaşık 100× parametre aralığı, hibrit LFM2 mimarisinin öngörülebilir ölçeklenme davranışını doğrular, küçük model tavan etkisi olmadan.
LFM2-24B-A2B, llama.cpp, vLLM ve SGLang genelinde kutudan çıktığı CPU veya GPU ile sıfır gün desteğiyle geliyor ve GGUF kuantizasyonları (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16) ile sunuluyor. CPU (AMD Ryzen AI Max+ 395, Q4_K_M) ile 8K bağlamda ~93 tok/s sürdürür, benzer boyuttaki MoE modellerini geride bırakır ve güçlü uzun bağlam ölçeklendirmesini korur.
CPU (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp) üzerinde LFM2-24B-A2B, 1K→8K bağlamlarda (8K'da ~1.132 tok/s) güçlü ön doldurma verimliliğini sürdürüyor ve benzer boyuttaki MoE modelleriyle rekabet halini sürdürüyor. GPU (H100 SXM5, SGLang/vLLM) üzerinde, maliyet verimli dağıtım ve RLVR iş yükleri için kritik olan gerçekçi yüksek eşzamanlı hizmet altında avantajlı çıktı verimliliği ölçeklendiriyor.
GPU'da (H100 SXM5, vLLM), LFM2-24B-A2B, 1024 eşzamanlı istekte (1024-max-input-token / 512-max-output-token) ~26,8K toplam token aktarım hızına (tok/s) ölçeklenir ve sürekli toplu üretimde benzer boyuttaki MoE modellerini geride bırakır. Gerçekçi aralıklı ön doldurma+kodlama ile ölçülüyor — üretim ölçeğinde hizmet vermek ve gerçek anlamda gerçek anlamda iş yükleri için oluşturulmuştur.
57