DApp Store | Pusat Web3 untuk Event & Game

Topik trending

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

#

Boop.Fun leading the way with a new launchpad on Solana.

vLLM

🎉 Selamat untuk @Alibaba_Qwen pada Seri Model Menengah Qwen3.5 — Qwen3.5-35B-A3B, 122B-A10B, dan 27B 🚀🚀🚀 Lebih banyak kecerdasan, lebih sedikit komputasi — persis seperti yang disukai komunitas open source! Lihat resep kami dan coba semuanya dengan vLLM hari ini!

Qwen14 jam lalu

🚀 Memperkenalkan Seri Model Menengah Qwen 3.5 Qwen3.5-Flash · Qwen3.5-35B-A3B · Qwen3.5-122B-A10B · Qwen3.5-27B ✨ Lebih banyak kecerdasan, lebih sedikit komputasi. • Qwen3.5-35B-A3B sekarang melampaui Qwen3-235B-A22B-2507 dan Qwen3-VL-235B-A22B — pengingat bahwa arsitektur, kualitas data, dan RL yang lebih baik dapat memajukan intelijen, bukan hanya jumlah parameter yang lebih besar. • Qwen3.5-122B-A10B dan 27B terus mempersempit kesenjangan antara model berukuran sedang dan perbatasan — terutama dalam skenario agen yang lebih kompleks. • Qwen3.5-Flash adalah versi produksi yang dihosting yang selaras dengan 35B-A3B, menampilkan: – Panjang konteks 1M secara default – Alat bawaan resmi 🔗 Wajah Memeluk: 🔗 Ruang lingkup model: 🔗 API Qwen3.5-Flash: Coba di Qwen Chat 👇 Berkedip: 27B: 35B-A3B: 122B-A10B: Akan senang mendengar apa yang Anda bangun dengannya.

vLLM12 Feb, 02.44

🔥Selamat kepada @Zai_org atas peluncuran GLM-5 — parameter 744B (40B aktif), dilatih pada token 28.5T, mengintegrasikan DeepSeek Sparse Attention untuk menjaga biaya penerapan tetap dapat dikelola sambil mempertahankan kapasitas konteks panjang. vLLM memiliki dukungan hari-0 untuk GLM-5-FP8 dengan: 📖 DeepSeek Sparse Attention untuk penyajian konteks panjang yang efisien ⚡️ Decoding spekulatif MTP ⚙️ Mode panggilan alat + berpikir Resep dengan konfigurasi penyajian dan tolok ukur: 🔗

40

vLLM11 Feb, 16.35

🚀 vLLM baru saja mencapai 70 ribu bintang GitHub! 🎉 Mesin terus berkembang pesat sejak tonggak terakhir. Kami telah mendorong keras pada layanan skala besar — dukungan multi-node tingkat produksi di NVIDIA Blackwell dengan WideEP dan paralelisme ahli, membuatnya praktis untuk melayani model terbesar dalam skala besar. Lebih banyak model, lebih banyak perangkat keras, penjadwalan asinkron untuk throughput yang lebih tinggi, streaming real-time untuk ucapan dan audio, dan cerita multimoda yang berkembang di seluruh teks, penglihatan, video, dan suara. Terima kasih banyak kepada sponsor kami, 2.100+ kontributor kami, teman di @PyTorch, @huggingface Transformers, dan lab model yang bekerja sama dengan kami untuk memberikan dukungan hari 0 — @deepseek_ai, @Alibaba_Qwen, @MiniMax_AI, @Kimi_Moonshot, @MistralAI, dan mitra @NVIDIAAIDev, @RedHat_AI, @AIatAMD, @AIatMeta, dan banyak lagi yang tidak dapat kami muat di sini — semuanya membantu membawa vLLM ke lebih banyak platform dan lebih banyak orang. Anda membuat ekosistem ini apa adanya. 💛💙 Juga selama waktu ini, @inferact didirikan oleh pencipta dan pengelola inti vLLM, yang didedikasikan untuk menumbuhkan vLLM dan membuat inferensi lebih murah dan lebih cepat. Ke bab berikutnya - bersama-sama. Penyajian LLM yang mudah, cepat, dan murah untuk semua orang. 🌍

59

Teratas

Peringkat

Favorit

Bahasa Indonesia 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

More about OKX Wallet

Unduh Akademi Tentang kami Karier Hubungi kami Ketentuan layanan Kebijakan privasi X (sebelumnya Twitter)

Product

Tokens Swap Marketplace Earn Discover Build Explorer Keamanan

Dukungan

Dukungan Layanan Verifikasi saluran resmi Pengumuman Jadwal biaya DEX Hubungkan dengan OKX Wallet Bitcoin Wallet Ethereum Wallet Solana