Hôm nay, chúng tôi phát hành mô hình LFM2 lớn nhất của mình: LFM2-24B-A2B 🐘 > 24B tham số tổng cộng > 2.3B hoạt động trên mỗi token > Được xây dựng trên kiến trúc LFM2 hybrid, nhận thức phần cứng Nó kết hợp thiết kế nhanh, tiết kiệm bộ nhớ của LFM2 với cấu hình Mixture of Experts, vì vậy chỉ có 2.3B tham số được kích hoạt trong mỗi lần chạy. Kết quả: hiệu suất hàng đầu, suy diễn nhanh chóng và khả năng mở rộng log-linear dự đoán được, tất cả trong một footprint MoE 32GB, 2B-active. 🧵
Với bản phát hành này, gia đình LFM2 trải dài gần hai bậc độ lớn: từ LFM2-350M đến LFM2-24B-A2B. Mỗi bước tăng quy mô đều mang lại những cải tiến chất lượng nhất quán trên các tiêu chuẩn đánh giá. Chúng tôi đã thiết kế LFM2-24B-A2B để phù hợp với 32 GB RAM, giúp nó có thể chạy trên các laptop và máy tính để bàn tiêu dùng với bộ xử lý đồ họa tích hợp (iGPU) và đơn vị xử lý thần kinh chuyên dụng (NPU). > LFM2-24B-A2B mở rộng gia đình LFM2 từ 350M → 24B tham số > Gần hai bậc độ lớn với những cải tiến chất lượng nhất quán, log-linear trên các tiêu chuẩn đánh giá.
Công thức mở rộng: Đi sâu hơn. Thêm chuyên gia. Giữ cho đường dẫn hoạt động gọn nhẹ. Chúng tôi đã mở rộng LFM2-24B-A2B bằng cách đi sâu hơn (24→40 lớp) và gấp đôi số chuyên gia (32→64 cho mỗi khối MoE), trong khi giữ kích thước ẩn (2048), định tuyến top-4, và tỷ lệ attention:conv là 1:3 cố định. > Tổng số tham số tăng 3× (8.3B→24B) > Số tham số hoạt động chỉ tăng ~1.5× (1.5B→2.3B) Chi phí suy diễn theo dõi đường dẫn hoạt động (không phải tổng số tham số) giữ cho độ trễ và năng lượng phù hợp với các ràng buộc triển khai thực tế. Khả năng mở rộng. Tính toán theo token vẫn gọn nhẹ.
Chúng tôi đã gửi điều này dưới dạng mô hình hướng dẫn truyền thống (không có dấu vết lý luận) sử dụng phương pháp huấn luyện sau nhẹ. Trên: > GPQA Diamond > MMLU-Pro > IFEval > IFBench > GSM8K > MATH-500 Chất lượng cải thiện theo đường log từ 350M → 24B. Phạm vi tham số gần 100× này xác nhận hành vi mở rộng có thể dự đoán của kiến trúc hybrid LFM2, không có hiệu ứng trần mô hình nhỏ.
LFM2-24B-A2B được trang bị hỗ trợ ngay từ ngày đầu cho llama.cpp, vLLM và SGLang, CPU hoặc GPU ngay khi xuất xưởng, với các định dạng GGUF (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16). Trên CPU (AMD Ryzen AI Max+ 395, Q4_K_M), nó duy trì ~93 tok/s ở ngữ cảnh 8K, vượt trội hơn các mô hình MoE có kích thước tương tự trong khi vẫn duy trì khả năng mở rộng ngữ cảnh dài mạnh mẽ.
Trên CPU (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp), LFM2-24B-A2B duy trì thông lượng prefill mạnh mẽ trên các ngữ cảnh từ 1K→8K (~1,132 tok/s tại 8K), vẫn cạnh tranh với các mô hình MoE có kích thước tương tự. Trên GPU (H100 SXM5, SGLang/vLLM), nó cho thấy khả năng mở rộng thông lượng đầu ra thuận lợi dưới điều kiện phục vụ đồng thời cao thực tế, điều này rất quan trọng cho việc triển khai tiết kiệm chi phí và các khối lượng công việc RLVR.
Trên GPU (H100 SXM5, vLLM), LFM2-24B-A2B đạt được ~26.8K tổng số token thông qua (tok/s) với 1024 yêu cầu đồng thời (1024-max-input-tokens / 512-max-output-tokens), vượt trội hơn các mô hình MoE có kích thước tương tự trong điều kiện batching liên tục. Được đo với việc điền trước + giải mã xen kẽ thực tế — được xây dựng cho phục vụ quy mô sản xuất và khối lượng công việc RL.
66