🚀 vLLM har precis nått 70 000 GitHub-stjärnor! 🎉 Motorn har utvecklats snabbt sedan senaste milstolpen. Vi har satsat hårt på storskalig servering – produktionsnivå multi-nod-stöd på NVIDIA Blackwell med WideEP och expertparallellism, vilket gör det praktiskt att hantera de största modellerna i stor skala. Fler modeller, mer hårdvara, asynkron schemaläggning för högre genomströmning, realtidsströmning för tal och ljud, samt en växande multimodal berättelse över text, bild, video och röst. Stort tack till våra sponsorer, våra 2 100+ bidragsgivare, vänner på @PyTorch, @huggingface Transformers och de modelllabb vi arbetar nära med för att ge stöd från dag 0 – @deepseek_ai, @Alibaba_Qwen, @MiniMax_AI, @Kimi_Moonshot, @MistralAI och partners @NVIDIAAIDev, @RedHat_AI, @AIatAMD, @AIatMeta och många fler som vi inte kan få plats med här – alla hjälper till att föra vLLM till fler plattformar och fler människor. Du gör det här ekosystemet till vad det är. 💛💙 Under denna tid grundades @inferact också av skaparna och kärnunderhållarna av vLLM, dedikerade till att utveckla vLLM och göra inferensen billigare och snabbare. Vidare till nästa kapitel — tillsammans. Enkel, snabb och billig LLM-servering för alla. 🌍