Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
Gefeliciteerd aan het @liquidai team met LFM2-24B-A2B! 🎉 Day-0 ondersteuning voor LFM2-24B-A2B in de stabiele versie van vLLM ✅
24B totale parameters, slechts 2B actief per token — past in 32 GB RAM en haalt 293 tok/s op H100 🔥


08833924 feb, 22:22
Vandaag brengen we ons grootste LFM2-model uit: LFM2-24B-A2B 🐘
> 24B totale parameters
> 2.3B actief per token
> Gebouwd op onze hybride, hardware-bewuste LFM2-architectuur
Het combineert het snelle, geheugenefficiënte ontwerp van LFM2 met een Mixture of Experts-opstelling, zodat slechts 2.3B parameters bij elke uitvoering worden geactiveerd.
Het resultaat: best-in-class efficiëntie, snelle edge-inferentie en voorspelbare log-lineaire schaalvergroting, allemaal in een 32GB, 2B-actieve MoE-voetafdruk.
🧵

14
🎉 Gefeliciteerd @Alibaba_Qwen met de Qwen3.5 Medium Model Series — Qwen3.5-35B-A3B, 122B-A10B, en 27B 🚀🚀🚀
Meer intelligentie, minder rekenkracht — precies wat de open source gemeenschap graag ziet!
Bekijk ons recept en probeer ze allemaal vandaag met vLLM!

Qwen23 uur geleden
🚀 Introductie van de Qwen 3.5 Medium Model Serie
Qwen3.5-Flash · Qwen3.5-35B-A3B · Qwen3.5-122B-A10B · Qwen3.5-27B
✨ Meer intelligentie, minder rekenkracht.
• Qwen3.5-35B-A3B overtreft nu Qwen3-235B-A22B-2507 en Qwen3-VL-235B-A22B — een herinnering dat betere architectuur, datakwaliteit en RL de intelligentie vooruit kunnen helpen, niet alleen grotere parameter tellingen.
• Qwen3.5-122B-A10B en 27B blijven de kloof tussen middelgrote en grensmodellen verkleinen — vooral in meer complexe agentscenario's.
• Qwen3.5-Flash is de gehoste productieversie die is afgestemd op 35B-A3B, met:
– 1M contextlengte standaard
– Officiële ingebouwde tools
🔗 Hugging Face:
🔗 ModelScope:
🔗 Qwen3.5-Flash API:
Probeer het in Qwen Chat 👇
Flash:
27B:
35B-A3B:
122B-A10B:
We horen graag wat je ermee bouwt.

27
🔥Gefeliciteerd aan @Zai_org met de lancering van GLM-5 — 744B parameters (40B actief), getraind op 28,5T tokens, met integratie van DeepSeek Sparse Attention om de implementatiekosten beheersbaar te houden terwijl de capaciteit voor lange contexten behouden blijft.
vLLM heeft dag-0 ondersteuning voor GLM-5-FP8 met:
📖 DeepSeek Sparse Attention voor efficiënte lange-context service
⚡️ MTP speculatieve decodering
⚙️ Tool aanroep + denkmodus
Recept met serviceconfiguraties en benchmarks:
🔗

61
Boven
Positie
Favorieten
