🚀 vLLM baru saja mencapai 70 ribu bintang GitHub! 🎉 Mesin terus berkembang pesat sejak tonggak terakhir. Kami telah mendorong keras pada layanan skala besar — dukungan multi-node tingkat produksi di NVIDIA Blackwell dengan WideEP dan paralelisme ahli, membuatnya praktis untuk melayani model terbesar dalam skala besar. Lebih banyak model, lebih banyak perangkat keras, penjadwalan asinkron untuk throughput yang lebih tinggi, streaming real-time untuk ucapan dan audio, dan cerita multimoda yang berkembang di seluruh teks, penglihatan, video, dan suara. Terima kasih banyak kepada sponsor kami, 2.100+ kontributor kami, teman di @PyTorch, @huggingface Transformers, dan lab model yang bekerja sama dengan kami untuk memberikan dukungan hari 0 — @deepseek_ai, @Alibaba_Qwen, @MiniMax_AI, @Kimi_Moonshot, @MistralAI, dan mitra @NVIDIAAIDev, @RedHat_AI, @AIatAMD, @AIatMeta, dan banyak lagi yang tidak dapat kami muat di sini — semuanya membantu membawa vLLM ke lebih banyak platform dan lebih banyak orang. Anda membuat ekosistem ini apa adanya. 💛💙 Juga selama waktu ini, @inferact didirikan oleh pencipta dan pengelola inti vLLM, yang didedikasikan untuk menumbuhkan vLLM dan membuat inferensi lebih murah dan lebih cepat. Ke bab berikutnya - bersama-sama. Penyajian LLM yang mudah, cepat, dan murah untuk semua orang. 🌍