一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

今天，我们发布了我们最大的 LFM2 模型：LFM2-24B-A2B 🐘 > 24B 总参数 > 每个 token 2.3B 活跃 > 基于我们的混合硬件感知 LFM2 架构构建它结合了 LFM2 快速、内存高效的设计和专家混合设置，因此每次运行仅激活 2.3B 参数。结果：在 32GB、2B 活跃 MoE 足迹下，提供最佳效率、快速边缘推理和可预测的对数线性扩展。 🧵

随着此次发布，LFM2系列几乎跨越了两个数量级：从LFM2-350M到LFM2-24B-A2B。每一步规模的提升都在标准基准测试中带来了持续的质量提升。我们设计的LFM2-24B-A2B适合在32 GB的RAM中运行，使其可以在配备集成图形处理器（iGPU）和专用神经处理单元（NPU）的消费级笔记本电脑和台式机上运行。 > LFM2-24B-A2B将LFM2系列从350M扩展到24B参数 > 几乎跨越两个数量级的规模，在基准测试中实现了一致的对数线性质量提升

扩展方案：深入挖掘。增加专家。保持活跃路径精简。我们通过深入挖掘（24→40层）和将专家数量翻倍（每个MoE块从32→64），同时保持隐藏层大小（2048）、前4路由和1:3的注意力:卷积比率不变，从而扩展了LFM2-24B-A2B。 > 总参数增长3倍（8.3B→24B） > 活跃参数仅增长约1.5倍（1.5B→2.3B）推理成本跟踪活跃路径（而非总参数数量），保持延迟和能量与实际部署约束一致。容量扩展。每个token的计算保持精简。

我们将其作为传统的指令模型（没有推理痕迹）使用轻量级后训练进行发布。在以下方面： > GPQA Diamond > MMLU-Pro > IFEval > IFBench > GSM8K > MATH-500 质量从350M提升到24B时呈对数线性改善。这个近100倍的参数范围确认了混合LFM2架构的可预测扩展行为，没有小模型的上限效应。

LFM2-24B-A2B 提供对 llama.cpp、vLLM 和 SGLang 的零日支持，开箱即用支持 CPU 或 GPU，并具有 GGUF 量化（Q4_0、Q4_K_M、Q5_K_M、Q6_K、Q8_0、F16）。在 CPU（AMD Ryzen AI Max+ 395，Q4_K_M）上，它在 8K 上下文下维持 ~93 tok/s 的速度，超越了同样规模的 MoE 模型，同时保持强大的长上下文扩展能力。

在CPU（AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp）上，LFM2-24B-A2B 在1K→8K上下文中保持强劲的预填充吞吐量（在8K时约为1,132 tok/s），与同样规模的MoE模型竞争力十足。在GPU（H100 SXM5, SGLang/vLLM）上，它在现实的高并发服务下表现出良好的输出吞吐量扩展，这对成本高效的部署和RLVR工作负载至关重要。

在GPU（H100 SXM5，vLLM）上，LFM2-24B-A2B的总令牌吞吐量（tok/s）可扩展至约26.8K，支持1024个并发请求（1024-最大输入令牌/ 512-最大输出令牌），在持续批处理下超越了同等规模的MoE模型。使用现实的交错预填充+解码进行测量——为生产规模的服务和RL工作负载而构建。