Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Сьогодні ми випускаємо нашу найбільшу модель LFM2: LFM2-24B-A2B 🐘 > 24B загальні параметри > 2,3 млрд активних на токен > Побудовано на нашій гібридній, апаратно-орієнтованій архітектурі LFM2 Він поєднує швидку, пам'ятно-ефективну конструкцію LFM2 з системою Mix of Experts, тому лише 2.3B параметри активують кожен запуск. Результат: найкраща в класі ефективність, швидке виведення країв і передбачуване логарифмічне масштабування — все це на 32GB, 2B-активному MoE. 🧵

З цим релізом сімейство LFM2 охоплює майже два порядки: від LFM2-350M до LFM2-24B-A2B. Кожен крок у масштабі приносив стабільне зростання якості на стандартних бенчмарках. Ми розробили LFM2-24B-A2B так, щоб вмістити 32 ГБ оперативної пам'яті, роблячи його придатним для роботи на споживчих ноутбуках і настільних комп'ютерах з інтегрованим графічним процесором (iGPU) та виділеним нейронним процесором (NPU). > LFM2-24B-A2B розширює сімейство LFM2 з параметрів 350M → 24B > Майже два порядки масштабу з послідовними, логарифм-лінійними покращеннями якості між бенчмарками

Рецепт масштабування: Заглибиться глибше. Додайте експертів. Тримайте активний шлях гнучким. Ми масштабували LFM2-24B-A2B, заглиблюючись (24→40 шарів) і подвоюючи експертів (32→64 на блок MoE), зберігаючи при цьому прихований розмір (2048), маршрутизацію топ-4 і співвідношення 1:3 attention:conv фіксованими. > Загальна кількість параметрів зростає на 3× (8.3B→24B) > Активні параметри зростають лише ~1.5× (1.5B→2.3B) Вартість виведення відстежує активний шлях (а не загальну кількість параметрів), підтримуючи затримку та енергію відповідно до реальних обмежень розгортання. Пропускна здатність масштабується. Обчислення на кожен токен залишається компактним.

Ми поставили це як традиційну модель інструкції (без слідів міркування), з легким післятренуванням. Поперек: > GPQA Diamond > MMLU-Pro > IFEval > IFBench > GSM8K > MATH-500 Якість покращується лінолінійно з 350М → 24Б. Цей майже 100× діапазон параметрів підтверджує передбачувану масштабовану поведінку гібридної архітектури LFM2, без ефекту стеля малої моделі.

LFM2-24B-A2B поставляється з підтримкою нульового дня для llama.cpp, vLLM і SGLang, CPU або GPU з коробки, з квантуванням GGUF (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16). На процесорі (AMD Ryzen AI Max+ 395, Q4_K_M) він підтримує ~93 tok/s при 8K контексті, перевершуючи моделі MoE подібного розміру, зберігаючи при цьому сильне масштабування довгого контексту.

На процесорі (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp) LFM2-24B-A2B підтримує високу пропускну здатність пре-заповнення в контекстах 1K→8K (~1 132 ток/с при 8K), залишаючись конкурентоспроможним із моделями MoE подібного розміру. На GPU (H100 SXM5, SGLang/vLLM) він демонструє сприятливе масштабування вихідної пропускної здатності при реалістичному висококонкурентному обслуговуванні, що критично важливо для економічно ефективного розгортання та навантажень RLVR.

На GPU (H100 SXM5, vLLM) LFM2-24B-A2B масштабується до ~26,8K загальної пропускної здатності токена (tok/s) при 1024 одночасних запитах (1024-max-input-tokens / 512-max-output-tokens), перевершуючи моделі MoE подібного розміру при безперервному пакетуванні. Виміряється за допомогою реалістичного інтерліверованого передзаповнення+декодування — створеного для обсягу серціонування та навантаження RL.

Найкращі

Рейтинг

Вибране