🚀 vLLM har nettopp nådd 70 000 GitHub-stjerner! 🎉 Motoren har utviklet seg raskt siden siste milepæl. Vi har presset hardt på storskala servering — produksjonsstandard fler-node-støtte på NVIDIA Blackwell med WideEP og ekspertparallellisme, noe som gjør det praktisk å betjene de største modellene i stor skala. Flere modeller, mer maskinvare, asynkron planlegging for høyere gjennomstrømning, sanntidsstrømming for tale og lyd, og en voksende multimodal historie på tvers av tekst, bilde, video og tale. Stor takk til sponsorene våre, våre 2 100+ bidragsytere, venner hos @PyTorch, @huggingface Transformers, og modelllaboratoriene vi samarbeider tett med for å gi støtte på dag 0 — @deepseek_ai, @Alibaba_Qwen, @MiniMax_AI, @Kimi_Moonshot, @MistralAI og partnere @NVIDIAAIDev, @RedHat_AI, @AIatAMD, @AIatMeta og mange flere vi ikke får plass til her — alle bidrar til å bringe vLLM til flere plattformer og flere mennesker. Du gjør dette økosystemet til det det er. 💛💙 Også i denne perioden ble @inferact grunnlagt av skaperne og kjerne-vedlikeholderne av vLLM, dedikert til å utvikle vLLM og gjøre slutninger billigere og raskere. Videre til neste kapittel — sammen. Enkelt, raskt og billig LLM-servering for alle. 🌍