一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

今天，我們推出我們最大的 LFM2 模型：LFM2-24B-A2B 🐘 > 24B 總參數 > 每個標記 2.3B 活躍 > 基於我們的混合硬體感知 LFM2 架構它結合了 LFM2 快速、內存高效的設計與專家混合設置，因此每次運行僅激活 2.3B 參數。結果：在 32GB、2B 活躍 MoE 足跡中，實現了最佳的效率、快速的邊緣推理和可預測的對數線性擴展。 🧵

隨著這次發布，LFM2系列的範圍幾乎跨越了兩個數量級：從LFM2-350M到LFM2-24B-A2B。每一步的擴展都在標準基準測試中帶來了一致的質量提升。我們設計的LFM2-24B-A2B適合在32 GB的RAM中運行，使其能在配備集成顯示處理器(iGPU)和專用神經處理單元(NPU)的消費者筆記本電腦和桌面上運行。 > LFM2-24B-A2B將LFM2系列從350M擴展到24B參數 > 幾乎跨越了兩個數量級的規模，並在基準測試中實現了一致的對數線性質量改進

擴展配方：深入探索。增加專家。保持活躍路徑精簡。我們通過深入（24→40層）和將專家數量翻倍（每個MoE區塊從32→64），同時保持隱藏層大小（2048）、前4路由和1:3的注意力：卷積比率不變，擴展了LFM2-24B-A2B。 > 總參數增長3倍（8.3B→24B） > 活躍參數僅增長約1.5倍（1.5B→2.3B）推理成本跟踪活躍路徑（而非總參數數量），保持延遲和能量與現實世界部署約束一致。容量擴展。每個標記的計算保持精簡。

我們將這個作為傳統的指令模型（沒有推理痕跡）進行輕量級的後訓練。跨越： > GPQA Diamond > MMLU-Pro > IFEval > IFBench > GSM8K > MATH-500 質量從 350M → 24B 以對數線性方式改善。這幾乎 100 倍的參數範圍確認了混合 LFM2 架構的可預測擴展行為，沒有小模型的上限效應。

LFM2-24B-A2B 提供即時支援，兼容 llama.cpp、vLLM 和 SGLang，無論是 CPU 還是 GPU，並且支持 GGUF 量化（Q4_0、Q4_K_M、Q5_K_M、Q6_K、Q8_0、F16）。在 CPU（AMD Ryzen AI Max+ 395，Q4_K_M）上，它在 8K 上下文中持續約 93 tok/s，表現超越同樣大小的 MoE 模型，同時保持強大的長上下文擴展能力。

在 CPU（AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp）上，LFM2-24B-A2B 在 1K→8K 上下文中保持強勁的預填充吞吐量（在 8K 時約 1,132 tok/s），與同樣大小的 MoE 模型保持競爭力。在 GPU（H100 SXM5, SGLang/vLLM）上，它在現實的高併發服務下顯示出有利的輸出吞吐量擴展，這對於成本效益的部署和 RLVR 工作負載至關重要。

在 GPU (H100 SXM5, vLLM) 上，LFM2-24B-A2B 的總令牌吞吐量達到約 26.8K 令牌/秒 (tok/s)，在 1024 個並發請求下 (1024-max-input-tokens / 512-max-output-tokens)，在持續批處理下超越了同類型的 MoE 模型。測量時使用現實的交錯預填充+解碼 — 為生產規模的服務和強化學習工作負載而構建。