Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Сегодня мы представляем нашу крупнейшую модель LFM2: LFM2-24B-A2B 🐘
> 24B всего параметров
> 2.3B активных на токен
> Построена на нашей гибридной, аппаратно-осведомленной архитектуре LFM2
Она сочетает в себе быструю, экономичную по памяти конструкцию LFM2 с настройкой Mixture of Experts, так что только 2.3B параметров активируются при каждом запуске.
Результат: эффективность лучшего в своем классе, быстрая инференция на краю и предсказуемое лог-линейное масштабирование, все это в 32GB, 2B-активном MoE.

С этим релизом семья LFM2 охватывает почти два порядка величины: от LFM2-350M до LFM2-24B-A2B. Каждый шаг вверх по шкале принес постоянные улучшения качества по стандартным бенчмаркам.
Мы разработали LFM2-24B-A2B так, чтобы он помещался в 32 ГБ ОЗУ, что позволяет запускать его на потребительских ноутбуках и настольных ПК с интегрированным графическим процессором (iGPU) и выделенным нейронным процессором (NPU).
> LFM2-24B-A2B расширяет семью LFM2 с 350M → 24B параметров
> Почти два порядка величины с постоянными, логарифмически линейными улучшениями качества по всем бенчмаркам
Рецепт масштабирования: углубляйтесь. Добавьте экспертов. Держите активный путь компактным.
Мы масштабировали LFM2-24B-A2B, углубляясь (24→40 слоев) и удваивая количество экспертов (32→64 на блок MoE), при этом фиксируя размер скрытого слоя (2048), топ-4 маршрутизацию и соотношение внимания к свертке 1:3.
> Общее количество параметров увеличивается в 3 раза (8.3B→24B)
> Активные параметры увеличиваются только примерно в 1.5 раза (1.5B→2.3B)
Стоимость вывода отслеживает активный путь (не общее количество параметров), поддерживая задержку и энергопотребление в соответствии с ограничениями реального развертывания.
Вместимость масштабируется. Вычисления на токен остаются компактными.

Мы отправили это как традиционную модель инструкций (без следов рассуждений), используя легкую постобучение.
По:
> GPQA Diamond
> MMLU-Pro
> IFEval
> IFBench
> GSM8K
> MATH-500
Качество улучшается логарифмически от 350M до 24B.
Этот почти 100× диапазон параметров подтверждает предсказуемое поведение масштабирования гибридной архитектуры LFM2, без эффекта потолка для малых моделей.

LFM2-24B-A2B поставляется с поддержкой на день нуля для llama.cpp, vLLM и SGLang, CPU или GPU из коробки, с квантованиями GGUF (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16).
На CPU (AMD Ryzen AI Max+ 395, Q4_K_M) он поддерживает ~93 ток/с при 8K контексте, превосходя модели MoE аналогичного размера, сохраняя при этом сильное масштабирование для длинного контекста.

На CPU (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp) LFM2-24B-A2B поддерживает высокий уровень пропускной способности при предварительном заполнении в диапазоне 1K→8K контекстов (~1,132 ток/с при 8K), оставаясь конкурентоспособным с аналогичными моделями MoE.
На GPU (H100 SXM5, SGLang/vLLM) он демонстрирует благоприятное масштабирование выходной пропускной способности при реалистичном высоком уровне параллелизма, что критически важно для экономически эффективного развертывания и рабочих нагрузок RLVR.

На GPU (H100 SXM5, vLLM) LFM2-24B-A2B достигает ~26.8K общего пропускной способности токенов (ток/с) при 1024 параллельных запросах (1024-максимум-входных-токенов / 512-максимум-выходных-токенов), превосходя модели MoE аналогичного размера при непрерывной пакетной обработке.
Измерено с реалистичным чередованием предварительной загрузки и декодирования — разработано для обслуживания на производственном уровне и рабочих нагрузок RL.

70
Топ
Рейтинг
Избранное
