DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Hoy, lanzamos nuestro modelo LFM2 más grande: LFM2-24B-A2B 🐘 > 24B parámetros en total > 2.3B activos por token > Construido sobre nuestra arquitectura LFM2 híbrida y consciente del hardware Combina el diseño rápido y eficiente en memoria de LFM2 con una configuración de Mezcla de Expertos, por lo que solo se activan 2.3B de parámetros en cada ejecución. El resultado: eficiencia de clase mundial, inferencia rápida en el borde y escalado logarítmico predecible, todo en una huella de MoE de 32GB y 2B activos. 🧵

Con este lanzamiento, la familia LFM2 abarca casi dos órdenes de magnitud: desde LFM2-350M hasta LFM2-24B-A2B. Cada paso hacia arriba en la escala ha traído mejoras de calidad consistentes en los benchmarks estándar. Diseñamos LFM2-24B-A2B para que quepa en 32 GB de RAM, lo que permite ejecutarlo en laptops y desktops de consumo con procesador gráfico integrado (iGPU) y unidad de procesamiento neural dedicada (NPU). > LFM2-24B-A2B expande la familia LFM2 de 350M → 24B parámetros > Casi dos órdenes de magnitud de escala con mejoras de calidad consistentes y logarítmicas en todos los benchmarks.

Receta de escalado: Profundiza. Añade expertos. Mantén el camino activo ágil. Escalamos LFM2-24B-A2B profundizando (24→40 capas) y duplicando expertos (32→64 por bloque MoE), mientras mantenemos el tamaño oculto (2048), el enrutamiento top-4 y una relación atención:conv de 1:3 fija. > Los parámetros totales crecen 3× (8.3B→24B) > Los parámetros activos solo crecen ~1.5× (1.5B→2.3B) El costo de inferencia sigue el camino activo (no el conteo total de parámetros) manteniendo la latencia y la energía alineadas con las restricciones de implementación del mundo real. La capacidad se escala. El cálculo por token se mantiene ágil.

Enviamos esto como un modelo de instrucción tradicional (sin trazas de razonamiento) utilizando un post-entrenamiento ligero. A través de: > GPQA Diamond > MMLU-Pro > IFEval > IFBench > GSM8K > MATH-500 La calidad mejora de manera logarítmica de 350M → 24B. Este rango de parámetros de casi 100× confirma el comportamiento de escalado predecible de la arquitectura híbrida LFM2, sin efecto de techo en modelos pequeños.

LFM2-24B-A2B se envía con soporte de día cero para llama.cpp, vLLM y SGLang, CPU o GPU desde el primer momento, con cuantizaciones GGUF (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16). En CPU (AMD Ryzen AI Max+ 395, Q4_K_M), mantiene ~93 tok/s a 8K de contexto, superando a modelos MoE de tamaño similar mientras mantiene una fuerte escalabilidad en contextos largos.

En CPU (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp), LFM2-24B-A2B mantiene un fuerte rendimiento de prellenado a través de contextos de 1K→8K (~1,132 tok/s a 8K), permaneciendo competitivo con modelos MoE de tamaño similar. En GPU (H100 SXM5, SGLang/vLLM), demuestra una escalabilidad favorable del rendimiento de salida bajo un servicio de alta concurrencia realista, lo cual es crítico para un despliegue rentable y cargas de trabajo de RLVR.

En GPU (H100 SXM5, vLLM), LFM2-24B-A2B escala a ~26.8K de rendimiento total de tokens (tok/s) con 1024 solicitudes concurrentes (1024-tokens-de-entrada-máx / 512-tokens-de-salida-máx), superando a modelos MoE de tamaño similar bajo un procesamiento continuo por lotes. Medido con un prellenado+decodificación intercalados realistas — diseñado para servir a escala de producción y cargas de trabajo de RL.

Parte superior

Clasificación

Favoritos