Gratulujeme týmu @liquidai k LFM2-24B-A2B! 🎉 Podpora pro LFM2-24B-A2B pro den 0 ve stabilní verzi ✅ vLLM
Celkem 24B parametrů, pouze 2B aktivních na token — vejde se do 32 GB RAM a dosahuje 293 tok/s na H100 🔥
Dnes uvádíme na trh náš největší model LFM2: LFM2-24B-A2B 🐘
> Celkové parametry 24B
> 2,3 miliardy na token
> Postaveno na naší hybridní, hardwarově uvědomělé architektuře LFM2
Kombinuje rychlý a paměťově úsporný design LFM2 s mixem expertů, takže při každém běhu se aktivují pouze 2,3B parametry.
Výsledek: nejlepší efektivita ve třídě, rychlá edge inference a předvídatelné log-lineární škálování, to vše v 32GB, 2B aktivním MoE prostoru.
🧵
🎉 Gratulujeme @Alibaba_Qwen k řadě Qwen3.5 Medium Model Series — Qwen3.5-35B-A3B, 122B-A10B a 27B 🚀🚀🚀
Více inteligence, méně výpočetní kapacity — přesně to, co open source komunita miluje!
Podívejte se na náš recept a vyzkoušejte je všechny s vLLM ještě dnes!
🚀 Představujeme řadu Qwen 3.5 Medium Model Series
Qwen3.5-Flash · Qwen3.5-35B-A3B · Qwen3.5-122B-A10B · Qwen3.5-27B
✨ Více inteligence, méně výpočetní kapacity.
• Qwen3.5-35B-A3B nyní překonává Qwen3-235B-A22B-2507 a Qwen3-VL-235B-A22B — připomínka, že lepší architektura, kvalita dat a RL mohou posunout inteligenci vpřed, nejen vyšší počet parametrů.
• Qwen3.5-122B-A10B a 27B nadále zmenšují rozdíl mezi středně velkými a frontier modely — zejména v složitějších scénářích agentů.
• Qwen3.5-Flash je hostovaná produkční verze zarovnaná s 35B-A3B, která obsahuje:
– výchozí délka kontextu 1M
– Oficiální vestavěné nástroje
🔗 Objímající obličej:
🔗 ModelScope:
🔗 Qwen3.5-Flash API:
Zkus v Qwen Chatu 👇
Flash:
27B:
35B-A3B:
122B-A10B:
Rád bych slyšel, co s tím postavíte.
🔥Gratuluji @Zai_org k uvedení GLM-5 — 744B parametrů (40B aktivní), trénování na 28,5T tokenech, integraci DeepSeek Sparse Attention, aby byly náklady na nasazení zvládnutelné a zároveň zachovaly kapacitu pro dlouhý kontext.
vLLM podporuje od dne 0 pro GLM-5-FP8 s:
📖 DeepSeek Sparse Attention pro efektivní dlouhodobé podávání
⚡️ MTP spekulativní dekódování
⚙️ Volání nástrojů + myšlenkový režim
Recept s konfiguracemi servírování a benchmarky:
🔗