热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
今天,我们发布了我们最大的 LFM2 模型:LFM2-24B-A2B 🐘
> 24B 总参数
> 每个 token 2.3B 活跃
> 基于我们的混合硬件感知 LFM2 架构构建
它结合了 LFM2 快速、内存高效的设计和专家混合设置,因此每次运行仅激活 2.3B 参数。
结果:在 32GB、2B 活跃 MoE 足迹下,提供最佳效率、快速边缘推理和可预测的对数线性扩展。
🧵

随着此次发布,LFM2系列几乎跨越了两个数量级:从LFM2-350M到LFM2-24B-A2B。每一步规模的提升都在标准基准测试中带来了持续的质量提升。
我们设计的LFM2-24B-A2B适合在32 GB的RAM中运行,使其可以在配备集成图形处理器(iGPU)和专用神经处理单元(NPU)的消费级笔记本电脑和台式机上运行。
> LFM2-24B-A2B将LFM2系列从350M扩展到24B参数
> 几乎跨越两个数量级的规模,在基准测试中实现了一致的对数线性质量提升
扩展方案:深入挖掘。增加专家。保持活跃路径精简。
我们通过深入挖掘(24→40层)和将专家数量翻倍(每个MoE块从32→64),同时保持隐藏层大小(2048)、前4路由和1:3的注意力:卷积比率不变,从而扩展了LFM2-24B-A2B。
> 总参数增长3倍(8.3B→24B)
> 活跃参数仅增长约1.5倍(1.5B→2.3B)
推理成本跟踪活跃路径(而非总参数数量),保持延迟和能量与实际部署约束一致。
容量扩展。每个token的计算保持精简。

我们将其作为传统的指令模型(没有推理痕迹)使用轻量级后训练进行发布。
在以下方面:
> GPQA Diamond
> MMLU-Pro
> IFEval
> IFBench
> GSM8K
> MATH-500
质量从350M提升到24B时呈对数线性改善。
这个近100倍的参数范围确认了混合LFM2架构的可预测扩展行为,没有小模型的上限效应。

LFM2-24B-A2B 提供对 llama.cpp、vLLM 和 SGLang 的零日支持,开箱即用支持 CPU 或 GPU,并具有 GGUF 量化(Q4_0、Q4_K_M、Q5_K_M、Q6_K、Q8_0、F16)。
在 CPU(AMD Ryzen AI Max+ 395,Q4_K_M)上,它在 8K 上下文下维持 ~93 tok/s 的速度,超越了同样规模的 MoE 模型,同时保持强大的长上下文扩展能力。

在CPU(AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp)上,LFM2-24B-A2B 在1K→8K上下文中保持强劲的预填充吞吐量(在8K时约为1,132 tok/s),与同样规模的MoE模型竞争力十足。
在GPU(H100 SXM5, SGLang/vLLM)上,它在现实的高并发服务下表现出良好的输出吞吐量扩展,这对成本高效的部署和RLVR工作负载至关重要。

在GPU(H100 SXM5,vLLM)上,LFM2-24B-A2B的总令牌吞吐量(tok/s)可扩展至约26.8K,支持1024个并发请求(1024-最大输入令牌/ 512-最大输出令牌),在持续批处理下超越了同等规模的MoE模型。
使用现实的交错预填充+解码进行测量——为生产规模的服务和RL工作负载而构建。

82
热门
排行
收藏
