Сегодня мы представляем нашу крупнейшую модель LFM2: LFM2-24B-A2B 🐘 > 24B всего параметров > 2.3B активных на токен > Построена на нашей гибридной, аппаратно-осведомленной архитектуре LFM2 Она сочетает в себе быструю, экономичную по памяти конструкцию LFM2 с настройкой Mixture of Experts, так что только 2.3B параметров активируются при каждом запуске. Результат: эффективность лучшего в своем классе, быстрая инференция на краю и предсказуемое лог-линейное масштабирование, все это в 32GB, 2B-активном MoE.
С этим релизом семья LFM2 охватывает почти два порядка величины: от LFM2-350M до LFM2-24B-A2B. Каждый шаг вверх по шкале принес постоянные улучшения качества по стандартным бенчмаркам. Мы разработали LFM2-24B-A2B так, чтобы он помещался в 32 ГБ ОЗУ, что позволяет запускать его на потребительских ноутбуках и настольных ПК с интегрированным графическим процессором (iGPU) и выделенным нейронным процессором (NPU). > LFM2-24B-A2B расширяет семью LFM2 с 350M → 24B параметров > Почти два порядка величины с постоянными, логарифмически линейными улучшениями качества по всем бенчмаркам
Рецепт масштабирования: углубляйтесь. Добавьте экспертов. Держите активный путь компактным. Мы масштабировали LFM2-24B-A2B, углубляясь (24→40 слоев) и удваивая количество экспертов (32→64 на блок MoE), при этом фиксируя размер скрытого слоя (2048), топ-4 маршрутизацию и соотношение внимания к свертке 1:3. > Общее количество параметров увеличивается в 3 раза (8.3B→24B) > Активные параметры увеличиваются только примерно в 1.5 раза (1.5B→2.3B) Стоимость вывода отслеживает активный путь (не общее количество параметров), поддерживая задержку и энергопотребление в соответствии с ограничениями реального развертывания. Вместимость масштабируется. Вычисления на токен остаются компактными.
Мы отправили это как традиционную модель инструкций (без следов рассуждений), используя легкую постобучение. По: > GPQA Diamond > MMLU-Pro > IFEval > IFBench > GSM8K > MATH-500 Качество улучшается логарифмически от 350M до 24B. Этот почти 100× диапазон параметров подтверждает предсказуемое поведение масштабирования гибридной архитектуры LFM2, без эффекта потолка для малых моделей.
LFM2-24B-A2B поставляется с поддержкой на день нуля для llama.cpp, vLLM и SGLang, CPU или GPU из коробки, с квантованиями GGUF (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16). На CPU (AMD Ryzen AI Max+ 395, Q4_K_M) он поддерживает ~93 ток/с при 8K контексте, превосходя модели MoE аналогичного размера, сохраняя при этом сильное масштабирование для длинного контекста.
На CPU (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp) LFM2-24B-A2B поддерживает высокий уровень пропускной способности при предварительном заполнении в диапазоне 1K→8K контекстов (~1,132 ток/с при 8K), оставаясь конкурентоспособным с аналогичными моделями MoE. На GPU (H100 SXM5, SGLang/vLLM) он демонстрирует благоприятное масштабирование выходной пропускной способности при реалистичном высоком уровне параллелизма, что критически важно для экономически эффективного развертывания и рабочих нагрузок RLVR.
На GPU (H100 SXM5, vLLM) LFM2-24B-A2B достигает ~26.8K общего пропускной способности токенов (ток/с) при 1024 параллельных запросах (1024-максимум-входных-токенов / 512-максимум-выходных-токенов), превосходя модели MoE аналогичного размера при непрерывной пакетной обработке. Измерено с реалистичным чередованием предварительной загрузки и декодирования — разработано для обслуживания на производственном уровне и рабочих нагрузок RL.
70