🚀 O vLLM acabou de alcançar 70 mil estrelas no GitHub! 🎉 O motor tem evoluído rapidamente desde o último marco. Temos pressionado fortemente o serviço em larga escala — suporte multi-nós de produção na NVIDIA Blackwell com WideEP e paralelismo especialista, tornando prático atender os maiores modelos em grande escala. Mais modelos, mais hardware, agendamento assíncrono para maior rendimento, streaming em tempo real para fala e áudio, e uma história multimodal em crescimento entre texto, visão, vídeo e voz. Um enorme agradecimento aos nossos patrocinadores, nossos 2.100+ colaboradores, amigos da @PyTorch, @huggingface Transformers e aos laboratórios de modelos com os quais trabalhamos em estreita colaboração para trazer suporte para o dia zero — @deepseek_ai, @Alibaba_Qwen, @MiniMax_AI, @Kimi_Moonshot, @MistralAI e parceiros @NVIDIAAIDev, @RedHat_AI, @AIatAMD, @AIatMeta e muitos outros que não cabemos aqui — todos ajudando a levar o vLLM a mais plataformas e mais pessoas. Você faz desse ecossistema o que ele é. 💛💙 Também nesse período, a @inferact foi fundada pelos criadores e mantenedores centrais do vLLM, dedicada a expandir o vLLM e tornar a inferência mais barata e rápida. Vamos para o próximo capítulo — juntos. Atendimento de LLM fácil, rápido e barato para todos. 🌍