Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
🎉 Selamat untuk @Alibaba_Qwen pada Seri Model Menengah Qwen3.5 — Qwen3.5-35B-A3B, 122B-A10B, dan 27B 🚀🚀🚀
Lebih banyak kecerdasan, lebih sedikit komputasi — persis seperti yang disukai komunitas open source!
Lihat resep kami dan coba semuanya dengan vLLM hari ini!

Qwen14 jam lalu
🚀 Memperkenalkan Seri Model Menengah Qwen 3.5
Qwen3.5-Flash · Qwen3.5-35B-A3B · Qwen3.5-122B-A10B · Qwen3.5-27B
✨ Lebih banyak kecerdasan, lebih sedikit komputasi.
• Qwen3.5-35B-A3B sekarang melampaui Qwen3-235B-A22B-2507 dan Qwen3-VL-235B-A22B — pengingat bahwa arsitektur, kualitas data, dan RL yang lebih baik dapat memajukan intelijen, bukan hanya jumlah parameter yang lebih besar.
• Qwen3.5-122B-A10B dan 27B terus mempersempit kesenjangan antara model berukuran sedang dan perbatasan — terutama dalam skenario agen yang lebih kompleks.
• Qwen3.5-Flash adalah versi produksi yang dihosting yang selaras dengan 35B-A3B, menampilkan:
– Panjang konteks 1M secara default
– Alat bawaan resmi
🔗 Wajah Memeluk:
🔗 Ruang lingkup model:
🔗 API Qwen3.5-Flash:
Coba di Qwen Chat 👇
Berkedip:
27B:
35B-A3B:
122B-A10B:
Akan senang mendengar apa yang Anda bangun dengannya.

🔥Selamat kepada @Zai_org atas peluncuran GLM-5 — parameter 744B (40B aktif), dilatih pada token 28.5T, mengintegrasikan DeepSeek Sparse Attention untuk menjaga biaya penerapan tetap dapat dikelola sambil mempertahankan kapasitas konteks panjang.
vLLM memiliki dukungan hari-0 untuk GLM-5-FP8 dengan:
📖 DeepSeek Sparse Attention untuk penyajian konteks panjang yang efisien
⚡️ Decoding spekulatif MTP
⚙️ Mode panggilan alat + berpikir
Resep dengan konfigurasi penyajian dan tolok ukur:
🔗

40
🚀 vLLM baru saja mencapai 70 ribu bintang GitHub! 🎉
Mesin terus berkembang pesat sejak tonggak terakhir. Kami telah mendorong keras pada layanan skala besar — dukungan multi-node tingkat produksi di NVIDIA Blackwell dengan WideEP dan paralelisme ahli, membuatnya praktis untuk melayani model terbesar dalam skala besar. Lebih banyak model, lebih banyak perangkat keras, penjadwalan asinkron untuk throughput yang lebih tinggi, streaming real-time untuk ucapan dan audio, dan cerita multimoda yang berkembang di seluruh teks, penglihatan, video, dan suara.
Terima kasih banyak kepada sponsor kami, 2.100+ kontributor kami, teman di @PyTorch, @huggingface Transformers, dan lab model yang bekerja sama dengan kami untuk memberikan dukungan hari 0 — @deepseek_ai, @Alibaba_Qwen, @MiniMax_AI, @Kimi_Moonshot, @MistralAI, dan mitra @NVIDIAAIDev, @RedHat_AI, @AIatAMD, @AIatMeta, dan banyak lagi yang tidak dapat kami muat di sini — semuanya membantu membawa vLLM ke lebih banyak platform dan lebih banyak orang. Anda membuat ekosistem ini apa adanya. 💛💙
Juga selama waktu ini, @inferact didirikan oleh pencipta dan pengelola inti vLLM, yang didedikasikan untuk menumbuhkan vLLM dan membuat inferensi lebih murah dan lebih cepat.
Ke bab berikutnya - bersama-sama. Penyajian LLM yang mudah, cepat, dan murah untuk semua orang. 🌍



59
Teratas
Peringkat
Favorit
