今天,我们发布了我们最大的 LFM2 模型:LFM2-24B-A2B 🐘 > 24B 总参数 > 每个 token 2.3B 活跃 > 基于我们的混合硬件感知 LFM2 架构构建 它结合了 LFM2 快速、内存高效的设计和专家混合设置,因此每次运行仅激活 2.3B 参数。 结果:在 32GB、2B 活跃 MoE 足迹下,提供最佳效率、快速边缘推理和可预测的对数线性扩展。 🧵
随着此次发布,LFM2系列几乎跨越了两个数量级:从LFM2-350M到LFM2-24B-A2B。每一步规模的提升都在标准基准测试中带来了持续的质量提升。 我们设计的LFM2-24B-A2B适合在32 GB的RAM中运行,使其可以在配备集成图形处理器(iGPU)和专用神经处理单元(NPU)的消费级笔记本电脑和台式机上运行。 > LFM2-24B-A2B将LFM2系列从350M扩展到24B参数 > 几乎跨越两个数量级的规模,在基准测试中实现了一致的对数线性质量提升
扩展方案:深入挖掘。增加专家。保持活跃路径精简。 我们通过深入挖掘(24→40层)和将专家数量翻倍(每个MoE块从32→64),同时保持隐藏层大小(2048)、前4路由和1:3的注意力:卷积比率不变,从而扩展了LFM2-24B-A2B。 > 总参数增长3倍(8.3B→24B) > 活跃参数仅增长约1.5倍(1.5B→2.3B) 推理成本跟踪活跃路径(而非总参数数量),保持延迟和能量与实际部署约束一致。 容量扩展。每个token的计算保持精简。
我们将其作为传统的指令模型(没有推理痕迹)使用轻量级后训练进行发布。 在以下方面: > GPQA Diamond > MMLU-Pro > IFEval > IFBench > GSM8K > MATH-500 质量从350M提升到24B时呈对数线性改善。 这个近100倍的参数范围确认了混合LFM2架构的可预测扩展行为,没有小模型的上限效应。
LFM2-24B-A2B 提供对 llama.cpp、vLLM 和 SGLang 的零日支持,开箱即用支持 CPU 或 GPU,并具有 GGUF 量化(Q4_0、Q4_K_M、Q5_K_M、Q6_K、Q8_0、F16)。 在 CPU(AMD Ryzen AI Max+ 395,Q4_K_M)上,它在 8K 上下文下维持 ~93 tok/s 的速度,超越了同样规模的 MoE 模型,同时保持强大的长上下文扩展能力。
在CPU(AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp)上,LFM2-24B-A2B 在1K→8K上下文中保持强劲的预填充吞吐量(在8K时约为1,132 tok/s),与同样规模的MoE模型竞争力十足。 在GPU(H100 SXM5, SGLang/vLLM)上,它在现实的高并发服务下表现出良好的输出吞吐量扩展,这对成本高效的部署和RLVR工作负载至关重要。
在GPU(H100 SXM5,vLLM)上,LFM2-24B-A2B的总令牌吞吐量(tok/s)可扩展至约26.8K,支持1024个并发请求(1024-最大输入令牌/ 512-最大输出令牌),在持续批处理下超越了同等规模的MoE模型。 使用现实的交错预填充+解码进行测量——为生产规模的服务和RL工作负载而构建。
82