Hari ini, kami merilis model LFM2 terbesar kami: LFM2-24B-A2B 🐘 > Parameter total 24B > 2,3 miliar aktif per token > Dibangun di atas arsitektur LFM2 hibrida kami yang sadar perangkat keras Ini menggabungkan desain LFM2 yang cepat dan hemat memori dengan pengaturan Campuran Ahli, sehingga hanya 2,3 miliar parameter yang mengaktifkan setiap proses. Hasilnya: efisiensi terbaik di kelasnya, inferensi tepi yang cepat, dan penskalaan log-linear yang dapat diprediksi semuanya dalam jejak MoE aktif 2B 32GB. 🧵
Dengan rilis ini, keluarga LFM2 mencakup hampir dua urutan besarnya: dari LFM2-350M hingga LFM2-24B-A2B. Setiap langkah peningkatan skala telah membawa peningkatan kualitas yang konsisten pada tolok ukur standar. Kami merancang LFM2-24B-A2B agar muat dalam RAM 32 GB, membuatnya dapat dijalankan di laptop dan desktop konsumen dengan prosesor grafis terintegrasi (iGPU) dan unit pemrosesan saraf (NPU) khusus. > LFM2-24B-A2B memperluas keluarga LFM2 dari parameter 350M → 24B > Hampir dua urutan besarnya skala dengan peningkatan kualitas log-linear yang konsisten di seluruh tolok ukur
Resep penskalaan: Masuk lebih dalam. Tambahkan ahli. Jaga agar jalur aktif tetap ramping. Kami menskalakan LFM2-24B-A2B dengan masuk lebih dalam (24→40 lapisan) dan menggandakan ahli (32→64 per blok MoE), sambil menjaga ukuran tersembunyi (2048), perutean 4 teratas, dan rasio perhatian:conv 1:3 tetap. > Total parameter tumbuh 3× (8,3 miliar→24 miliar) > Parameter aktif hanya tumbuh ~1,5× (1,5B→2,3B) Biaya inferensi melacak jalur aktif (bukan jumlah parameter total) menjaga latensi dan energi selaras dengan batasan penyebaran dunia nyata. Skala kapasitas. Komputasi per token tetap ramping.
Kami mengirimkan ini sebagai model instruksi tradisional (tidak ada jejak penalaran) menggunakan pasca-pelatihan yang ringan. Di seberang: > GPQA Diamond > MMLU-Pro > IFEval > IFBench > GSM8K > MATEMATIKA-500 Kualitas meningkat secara linier dari 350M → 24B. Rentang parameter hampir 100× ini mengkonfirmasi perilaku penskalaan yang dapat diprediksi dari arsitektur LFM2 hibrida, tidak ada efek langit-langit model kecil.
LFM2-24B-A2B dikirimkan dengan dukungan day-zero di llama.cpp, vLLM, dan SGLang, CPU atau GPU out of the box, dengan kuantisasi GGUF (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16). Pada CPU (AMD Ryzen AI Max+ 395, Q4_K_M), CPU mempertahankan ~93 tok/s pada konteks 8K, mengungguli model MoE berukuran serupa sambil mempertahankan penskalaan konteks panjang yang kuat.
Pada CPU (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp), LFM2-24B-A2B mempertahankan throughput prefill yang kuat di seluruh konteks 1K→8K (~1.132 tok/s pada 8K), tetap kompetitif dengan model MoE berukuran serupa. Pada GPU (H100 SXM5, SGLang/vLLM), ini menunjukkan penskalaan throughput output yang menguntungkan di bawah servis konkurensi tinggi yang realistis, penting untuk penerapan hemat biaya dan beban kerja RLVR.
Pada GPU (H100 SXM5, vLLM), LFM2-24B-A2B menskalakan ke ~26,8K total throughput token (tok/s) pada 1024 permintaan bersamaan (1024-max-input-token / 512-max-output-token), mengungguli model MoE berukuran serupa di bawah batching berkelanjutan. Diukur dengan prefill+decode interleaved realistis — dibuat untuk penyajian skala produksi dan beban kerja RL.
70