Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
Herzlichen Glückwunsch an das @liquidai-Team zu LFM2-24B-A2B! 🎉 Unterstützung am Tag 0 für LFM2-24B-A2B in der stabilen Version von vLLM ✅
24B Gesamtparameter, nur 2B aktiv pro Token — passt in 32 GB RAM und erreicht 293 tok/s auf H100 🔥


08833924. Feb., 22:22
Heute veröffentlichen wir unser größtes LFM2-Modell: LFM2-24B-A2B 🐘
> 24B Gesamtparameter
> 2,3B aktiv pro Token
> Basierend auf unserer hybriden, hardwarebewussten LFM2-Architektur
Es kombiniert das schnelle, speichereffiziente Design von LFM2 mit einem Mixture of Experts-Setup, sodass nur 2,3B Parameter bei jedem Lauf aktiviert werden.
Das Ergebnis: branchenführende Effizienz, schnelle Edge-Inferenz und vorhersehbares log-lineares Scaling, alles in einem 32GB, 2B-aktiven MoE-Fußabdruck.
🧵

18
🎉 Herzlichen Glückwunsch an @Alibaba_Qwen zur Qwen3.5 Medium Model Series — Qwen3.5-35B-A3B, 122B-A10B und 27B 🚀🚀🚀
Mehr Intelligenz, weniger Rechenleistung — genau das, was die Open-Source-Community gerne sieht!
Schau dir unser Rezept an und probiere sie alle heute mit vLLM aus!

Qwen25. Feb., 00:52
🚀 Einführung der Qwen 3.5 Medium Model Series
Qwen3.5-Flash · Qwen3.5-35B-A3B · Qwen3.5-122B-A10B · Qwen3.5-27B
✨ Mehr Intelligenz, weniger Rechenleistung.
• Qwen3.5-35B-A3B übertrifft jetzt Qwen3-235B-A22B-2507 und Qwen3-VL-235B-A22B — eine Erinnerung daran, dass bessere Architektur, Datenqualität und RL die Intelligenz voranbringen können, nicht nur größere Parameterzahlen.
• Qwen3.5-122B-A10B und 27B verringern weiterhin die Lücke zwischen mittelgroßen und Frontier-Modellen — insbesondere in komplexeren Agentenszenarien.
• Qwen3.5-Flash ist die gehostete Produktionsversion, die mit 35B-A3B übereinstimmt und folgende Funktionen bietet:
– 1M Kontextlänge standardmäßig
– Offizielle integrierte Werkzeuge
🔗 Hugging Face:
🔗 ModelScope:
🔗 Qwen3.5-Flash API:
Probieren Sie es im Qwen Chat aus 👇
Flash:
27B:
35B-A3B:
122B-A10B:
Würde gerne hören, was Sie damit bauen.

30
🔥Herzlichen Glückwunsch an @Zai_org zur Einführung von GLM-5 — 744B Parameter (40B aktiv), trainiert auf 28,5T Tokens, mit Integration von DeepSeek Sparse Attention, um die Bereitstellungskosten überschaubar zu halten und gleichzeitig die Kapazität für lange Kontexte zu bewahren.
vLLM hat sofortige Unterstützung für GLM-5-FP8 mit:
📖 DeepSeek Sparse Attention für effizientes Servieren von langen Kontexten
⚡️ MTP spekulative Dekodierung
⚙️ Toolaufruf + Denkmodus
Rezept mit Servierungskonfigurationen und Benchmarks:
🔗

67
Top
Ranking
Favoriten
