Hoy lanzamos nuestro modelo LFM2 más grande: LFM2-24B-A2B 🐘 > 24B parámetros totales > 2,3 mil millones activos por token > Construido sobre nuestra arquitectura híbrida y compatible con hardware LFM2 Combina el diseño rápido y eficiente en memoria de LFM2 con una configuración Mezcla de Expertos, de modo que solo 2,3 mil millones de parámetros se activan en cada ejecución. El resultado: eficiencia de primer nivel, inferencia rápida de bordes y escalado log-lineal predecible, todo en un espacio de 32GB activo de MoE activo. 🧵
Con esta versión, la familia LFM2 abarca casi dos órdenes de magnitud: desde LFM2-350M hasta LFM2-24B-A2B. Cada paso en escala ha aportado mejoras de calidad constantes respecto a los benchmarks estándar. Diseñamos LFM2-24B-A2B para que encajara en 32 GB de RAM, haciéndolo funcionable en portátiles y sobreescritorios de consumo con procesador gráfico integrado (iGPU) y unidad de procesamiento neuronal dedicada (NPU). > LFM2-24B-A2B amplía la familia LFM2 desde 350M → parámetros 24B > Casi dos órdenes de magnitud de escala con mejoras de calidad consistentes y logarítmicas a través de los benchmarks
Receta de escalado: Ve más profundo. Añade expertos. Mantén el camino activo esbelto. Escalamos LFM2-24B-A2B profundizando (24→40 capas) y duplicando expertos (32→64 por bloque MoE), manteniendo el tamaño oculto (2048), el enrutamiento top-4 y una relación atención:conv 1:3 fija. > El total de parámetros crece 3× (8,3B→24B) > Los parámetros activos solo crecen ~1,5× (1,5B→2,3B) El coste de inferencia rastrea el camino activo (no el total de parámetros), manteniendo la latencia y la energía alineadas con las restricciones reales de despliegue. La capacidad escala. El cómputo por token se mantiene reducido.
Lo enviamos como un modelo tradicional de instrucción (sin trazas de razonamiento) usando un entrenamiento post-ligero. A lo largo de: > Diamante GPQA > MMLU-Pro > IFEval > IFBench > GSM8K > MATH-500 La calidad mejora de forma logarithal de 350M → 24B. Este rango de casi 100× parámetros confirma un comportamiento de escalado predecible de la arquitectura híbrida LFM2, sin efecto techo de modelos pequeños.
LFM2-24B-A2B incluye soporte para day-zero en llama.cpp, vLLM y SGLang, CPU o GPU de fábrica, con cuantizaciones GGUF (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16). En CPU (AMD Ryzen AI Max+ 395, Q4_K_M), mantiene ~93 tok/s en contexto 8K, superando a modelos MoE de tamaño similar mientras mantiene un fuerte escalado de contexto largo.
En CPU (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp), LFM2-24B-A2B mantiene un alto rendimiento de prellenado en contextos de 1K→8K (~1.132 tok/s a 8K), manteniéndose competitivo con modelos MoE de tamaño similar. En GPU (H100 SXM5, SGLang/vLLM), demuestra una escalabilidad favorable en rendimiento de salida bajo un servicio realista de alta concurrencia, crítica para un despliegue rentable y cargas de trabajo RLVR.
En GPU (H100 SXM5, vLLM), LFM2-24B-A2B escala hasta ~26,8K fichas totales de rendimiento (tok/s) a 1024 solicitudes concurrentes (1024-max-input-tokens / 512-max-output-tokens), superando a modelos MoE de tamaño similar bajo batching continuo. Medido con prelleno+decodificación realista entrelazado — diseñado para cargas de trabajo a escala de producción y RL.
78