Aujourd'hui, nous lançons notre plus grand modèle LFM2 : LFM2-24B-A2B 🐘 > 24B paramètres au total > 2,3B actifs par token > Construit sur notre architecture LFM2 hybride et consciente du matériel Il combine le design rapide et économe en mémoire de LFM2 avec une configuration de Mixture of Experts, donc seulement 2,3B de paramètres s'activent à chaque exécution. Le résultat : une efficacité de premier ordre, une inférence rapide en périphérie et une mise à l'échelle log-linéaire prévisible, le tout dans une empreinte MoE de 32 Go et 2B actifs. 🧵
Avec cette version, la famille LFM2 couvre presque deux ordres de grandeur : de LFM2-350M à LFM2-24B-A2B. Chaque augmentation d'échelle a apporté des gains de qualité constants sur des benchmarks standards. Nous avons conçu LFM2-24B-A2B pour s'adapter à 32 Go de RAM, ce qui le rend exécutable sur des ordinateurs portables et de bureau grand public avec processeur graphique intégré (iGPU) et unité de traitement neural dédiée (NPU). > LFM2-24B-A2B étend la famille LFM2 de 350M → 24B paramètres > Près de deux ordres de grandeur d'échelle avec des améliorations de qualité constantes et log-linéaires à travers les benchmarks.
Recette de mise à l'échelle : Allez plus loin. Ajoutez des experts. Gardez le chemin actif léger. Nous avons mis à l'échelle LFM2-24B-A2B en allant plus loin (24→40 couches) et en doublant les experts (32→64 par bloc MoE), tout en gardant la taille cachée (2048), le routage top-4 et un ratio attention:conv de 1:3 fixes. > Le nombre total de paramètres augmente de 3× (8,3B→24B) > Les paramètres actifs n'augmentent que d'environ 1,5× (1,5B→2,3B) Le coût d'inférence suit le chemin actif (pas le nombre total de paramètres) en maintenant la latence et l'énergie alignées avec les contraintes de déploiement dans le monde réel. La capacité s'échelonne. Le calcul par jeton reste léger.
Nous avons expédié cela en tant que modèle d'instruction traditionnel (sans traces de raisonnement) en utilisant un post-entraînement léger. À travers : > GPQA Diamond > MMLU-Pro > IFEval > IFBench > GSM8K > MATH-500 La qualité s'améliore de manière log-linéaire de 350M → 24B. Cette plage de paramètres presque 100× confirme le comportement de mise à l'échelle prévisible de l'architecture hybride LFM2, sans effet de plafond pour les petits modèles.
LFM2-24B-A2B est livré avec un support dès le premier jour pour llama.cpp, vLLM et SGLang, CPU ou GPU prêt à l'emploi, avec des quantifications GGUF (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16). Sur CPU (AMD Ryzen AI Max+ 395, Q4_K_M), il maintient ~93 tok/s à 8K de contexte, surpassant des modèles MoE de taille similaire tout en conservant une forte évolutivité pour les longs contextes.
Sur CPU (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp), LFM2-24B-A2B maintient un fort débit de pré-remplissage à travers des contextes de 1K→8K (~1 132 tok/s à 8K), restant compétitif avec des modèles MoE de taille similaire. Sur GPU (H100 SXM5, SGLang/vLLM), il démontre une mise à l'échelle favorable du débit de sortie sous un service de haute concurrence réaliste, ce qui est crucial pour un déploiement rentable et des charges de travail RLVR.
Sur GPU (H100 SXM5, vLLM), LFM2-24B-A2B atteint un débit total d'environ 26,8K tokens (tok/s) avec 1024 requêtes simultanées (1024-max-input-tokens / 512-max-output-tokens), surpassant des modèles MoE de taille similaire sous un traitement par lots continu. Mesuré avec un pré-remplissage + décodage entrelacé réaliste — conçu pour un service à l'échelle de production et des charges de travail RL.
67