Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
Félicitations à l'équipe @liquidai pour LFM2-24B-A2B ! 🎉 Support Day-0 pour LFM2-24B-A2B dans la version stable de vLLM ✅
24B de paramètres au total, seulement 2B actifs par token — tient dans 32 Go de RAM et atteint 293 tok/s sur H100 🔥


08833924 févr., 22:22
Aujourd'hui, nous lançons notre plus grand modèle LFM2 : LFM2-24B-A2B 🐘
> 24B paramètres au total
> 2,3B actifs par token
> Construit sur notre architecture LFM2 hybride et consciente du matériel
Il combine le design rapide et économe en mémoire de LFM2 avec une configuration de Mixture of Experts, donc seulement 2,3B de paramètres s'activent à chaque exécution.
Le résultat : une efficacité de premier ordre, une inférence rapide en périphérie et une mise à l'échelle log-linéaire prévisible, le tout dans une empreinte MoE de 32 Go et 2B actifs.
🧵

13
🎉 Félicitations à @Alibaba_Qwen pour la série de modèles Medium Qwen3.5 — Qwen3.5-35B-A3B, 122B-A10B et 27B 🚀🚀🚀
Plus d'intelligence, moins de calcul — exactement ce que la communauté open source aime voir !
Découvrez notre recette et essayez-les tous avec vLLM aujourd'hui !

Qwenil y a 23 heures
🚀 Présentation de la série de modèles Qwen 3.5 Medium
Qwen3.5-Flash · Qwen3.5-35B-A3B · Qwen3.5-122B-A10B · Qwen3.5-27B
✨ Plus d'intelligence, moins de calcul.
• Qwen3.5-35B-A3B dépasse désormais Qwen3-235B-A22B-2507 et Qwen3-VL-235B-A22B — un rappel que meilleure architecture, qualité des données et RL peuvent faire progresser l'intelligence, pas seulement des comptes de paramètres plus importants.
• Qwen3.5-122B-A10B et 27B continuent de réduire l'écart entre les modèles de taille moyenne et les modèles de pointe — surtout dans des scénarios d'agents plus complexes.
• Qwen3.5-Flash est la version de production hébergée alignée avec 35B-A3B, avec :
– 1M de longueur de contexte par défaut
– Outils intégrés officiels
🔗 Hugging Face :
🔗 ModelScope :
🔗 API Qwen3.5-Flash :
Essayez dans Qwen Chat 👇
Flash :
27B :
35B-A3B :
122B-A10B :
Nous aimerions savoir ce que vous construisez avec.

26
🔥Félicitations à @Zai_org pour le lancement de GLM-5 — 744B paramètres (40B actifs), entraîné sur 28,5T de tokens, intégrant DeepSeek Sparse Attention pour maintenir les coûts de déploiement gérables tout en préservant la capacité de long contexte.
vLLM a un support jour-0 pour GLM-5-FP8 avec :
📖 DeepSeek Sparse Attention pour un service efficace de long contexte
⚡️ Décodage spéculatif MTP
⚙️ Appel d'outils + mode de réflexion
Recette avec configurations de service et benchmarks :
🔗

60
Meilleurs
Classement
Favoris
