Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
Congratulazioni al team di @liquidai per LFM2-24B-A2B! 🎉 Supporto Day-0 per LFM2-24B-A2B nella versione stabile di vLLM ✅
24B parametri totali, solo 2B attivi per token — si adatta a 32 GB di RAM e raggiunge 293 tok/s su H100 🔥


08833924 feb, 22:22
Oggi rilasciamo il nostro modello LFM2 più grande: LFM2-24B-A2B 🐘
> 24B parametri totali
> 2.3B attivi per token
> Costruito sulla nostra architettura ibrida e consapevole dell'hardware LFM2
Combina il design veloce e a memoria efficiente di LFM2 con un setup Mixture of Experts, quindi solo 2.3B parametri si attivano ad ogni esecuzione.
Il risultato: efficienza di prim'ordine, inferenza rapida ai margini e scalabilità log-lineare prevedibile, il tutto in un'impronta MoE da 32GB e 2B attivi.
🧵

10
🎉 Congratulazioni a @Alibaba_Qwen per la serie di modelli Qwen3.5 Medium — Qwen3.5-35B-A3B, 122B-A10B e 27B 🚀🚀🚀
Più intelligenza, meno calcolo — esattamente ciò che la comunità open source ama vedere!
Dai un'occhiata alla nostra ricetta e provali tutti con vLLM oggi!

Qwen23 ore fa
🚀 Introduzione alla serie di modelli Qwen 3.5 Medium
Qwen3.5-Flash · Qwen3.5-35B-A3B · Qwen3.5-122B-A10B · Qwen3.5-27B
✨ Maggiore intelligenza, meno calcolo.
• Qwen3.5-35B-A3B supera ora Qwen3-235B-A22B-2507 e Qwen3-VL-235B-A22B — un promemoria che una migliore architettura, qualità dei dati e RL possono far progredire l'intelligenza, non solo contare parametri più grandi.
• Qwen3.5-122B-A10B e 27B continuano a ridurre il divario tra modelli di dimensioni medie e modelli di frontiera — specialmente in scenari di agenti più complessi.
• Qwen3.5-Flash è la versione di produzione ospitata allineata con 35B-A3B, con:
– 1M di lunghezza del contesto per impostazione predefinita
– Strumenti ufficiali integrati
🔗 Hugging Face:
🔗 ModelScope:
🔗 API Qwen3.5-Flash:
Prova in Qwen Chat 👇
Flash:
27B:
35B-A3B:
122B-A10B:
Ci piacerebbe sapere cosa costruisci con esso.

23
🔥Congratulazioni a @Zai_org per il lancio di GLM-5 — 744B parametri (40B attivi), addestrato su 28,5T token, integrando DeepSeek Sparse Attention per mantenere i costi di distribuzione gestibili pur preservando la capacità di lungo contesto.
vLLM ha supporto day-0 per GLM-5-FP8 con:
📖 DeepSeek Sparse Attention per un servizio efficiente a lungo contesto
⚡️ Decodifica speculativa MTP
⚙️ Chiamata di strumenti + modalità di pensiero
Ricetta con configurazioni di servizio e benchmark:
🔗

57
Principali
Ranking
Preferiti
