今天,我們推出我們最大的 LFM2 模型:LFM2-24B-A2B 🐘 > 24B 總參數 > 每個標記 2.3B 活躍 > 基於我們的混合硬體感知 LFM2 架構 它結合了 LFM2 快速、內存高效的設計與專家混合設置,因此每次運行僅激活 2.3B 參數。 結果:在 32GB、2B 活躍 MoE 足跡中,實現了最佳的效率、快速的邊緣推理和可預測的對數線性擴展。 🧵
隨著這次發布,LFM2系列的範圍幾乎跨越了兩個數量級:從LFM2-350M到LFM2-24B-A2B。每一步的擴展都在標準基準測試中帶來了一致的質量提升。 我們設計的LFM2-24B-A2B適合在32 GB的RAM中運行,使其能在配備集成顯示處理器(iGPU)和專用神經處理單元(NPU)的消費者筆記本電腦和桌面上運行。 > LFM2-24B-A2B將LFM2系列從350M擴展到24B參數 > 幾乎跨越了兩個數量級的規模,並在基準測試中實現了一致的對數線性質量改進
擴展配方:深入探索。增加專家。保持活躍路徑精簡。 我們通過深入(24→40層)和將專家數量翻倍(每個MoE區塊從32→64),同時保持隱藏層大小(2048)、前4路由和1:3的注意力:卷積比率不變,擴展了LFM2-24B-A2B。 > 總參數增長3倍(8.3B→24B) > 活躍參數僅增長約1.5倍(1.5B→2.3B) 推理成本跟踪活躍路徑(而非總參數數量),保持延遲和能量與現實世界部署約束一致。 容量擴展。每個標記的計算保持精簡。
我們將這個作為傳統的指令模型(沒有推理痕跡)進行輕量級的後訓練。 跨越: > GPQA Diamond > MMLU-Pro > IFEval > IFBench > GSM8K > MATH-500 質量從 350M → 24B 以對數線性方式改善。 這幾乎 100 倍的參數範圍確認了混合 LFM2 架構的可預測擴展行為,沒有小模型的上限效應。
LFM2-24B-A2B 提供即時支援,兼容 llama.cpp、vLLM 和 SGLang,無論是 CPU 還是 GPU,並且支持 GGUF 量化(Q4_0、Q4_K_M、Q5_K_M、Q6_K、Q8_0、F16)。 在 CPU(AMD Ryzen AI Max+ 395,Q4_K_M)上,它在 8K 上下文中持續約 93 tok/s,表現超越同樣大小的 MoE 模型,同時保持強大的長上下文擴展能力。
在 CPU(AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp)上,LFM2-24B-A2B 在 1K→8K 上下文中保持強勁的預填充吞吐量(在 8K 時約 1,132 tok/s),與同樣大小的 MoE 模型保持競爭力。 在 GPU(H100 SXM5, SGLang/vLLM)上,它在現實的高併發服務下顯示出有利的輸出吞吐量擴展,這對於成本效益的部署和 RLVR 工作負載至關重要。
在 GPU (H100 SXM5, vLLM) 上,LFM2-24B-A2B 的總令牌吞吐量達到約 26.8K 令牌/秒 (tok/s),在 1024 個並發請求下 (1024-max-input-tokens / 512-max-output-tokens),在持續批處理下超越了同類型的 MoE 模型。 測量時使用現實的交錯預填充+解碼 — 為生產規模的服務和強化學習工作負載而構建。
80