مبروك لفريق @liquidai على LFM2-24B-A2B! 🎉 دعم Day-0 ل LFM2-24B-A2B في النسخة ✅ المستقرة vLLM
24 مليار پارامتر إجمالي، و2 مليار فقط نشطة لكل رمز — يتناسب مع ذاكرة RAM بسعة 32 جيجابايت ويصل إلى 293 توك/ثانية على H100 🔥
اليوم، نطلق أكبر طراز LFM2 لدينا: LFM2-24B-A2B 🐘
> 24 مليار معلمة إجمالية
> 2.3 مليار نشط لكل رمز
> مبنية على بنية LFM2 الهجينة والواعية بالأجهزة لدينا
يجمع بين تصميم LFM2 السريع والفعال للذاكرة مع إعداد مزيج من الخبراء، بحيث يتم تفعيل كل تشغيل فقط 2.3 مليار معلمة.
والنتيجة: كفاءة ممتازة، واستدلال سريع للحواف، وتحجيم لوغاريتمي خطي متوقع، كل ذلك في بصمة MoE نشطة بحجم 32GB.
🧵
🎉 مبروك ل @Alibaba_Qwen على سلسلة موديلات Qwen3.5 المتوسطة — Qwen3.5-35B-A3B، 122B-A10B، و27B 🚀🚀🚀
المزيد من الذكاء، وأقل الحوسبة — بالضبط ما يحب مجتمع المصادر المفتوحة رؤيته!
اطلع على وصفتنا وجربها جميعا مع vLLM اليوم!
🚀 تقديم سلسلة كوين 3.5 موديلات ميديوم
كوين3.5-فلاش · Qwen3.5-35B-A3B · Qwen3.5-122B-A10B · كوين 3.5-27B
✨ ذكاء أكثر، وحساب أقل.
• Qwen3.5-35B-A3B يتجاوز الآن Qwen3-235B-A22B-2507 و Qwen3-VL-235B-A22B — تذكير بأن البنية المعمارية الأفضل، وجودة البيانات، والتعلم المعزز يمكن أن تدفع الذكاء للأمام، وليس فقط أعداد معلمات أكبر.
• تستمر Qwen3.5-122B-A10B و27B في تضييق الفجوة بين النماذج متوسطة الحجم والنماذج الحدودية — خاصة في سيناريوهات الوكلاء الأكثر تعقيدا.
• Qwen3.5-Flash هو النسخة المستضافة الإنتاجية المتوافقة مع 35B-A3B، وتضمنت:
– طول السياق 1M بشكل افتراضي
– الأدوات الرسمية المدمجة
🔗 وجه العناق:
🔗 ModelScope:
🔗 واجهة برمجة تطبيقات Qwen3.5-Flash:
جرب في دردشة 👇 كوين
فلاش:
27B:
35B-A3B:
122B-A10B:
أود أن أسمع ما الذي تبنيه بها.
🔥تهانينا ل @Zai_org على إطلاق GLM-5 — 744 مليار معلمة (40 مليار عامل نشط)، مدربة على رموز 28.5 طن، مع دمج DeepSeek Sparse Attention للحفاظ على تكلفة النشر قابلة للإدارة مع الحفاظ على سعة السياق الطويل.
يدعم vLLM يوم صفر ل GLM-5-FP8 مع:
📖 DeepSeek Sparse Attention للخدمة الفعالة في السياق الطويل
⚡️ فك الترميز الافتراضي ب MTP
⚙️ استدعاء الأدوات + وضع التفكير
وصفة مع إعدادات تقديم واختبارات العرض:
🔗