Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
Chúc mừng đội ngũ @liquidai về LFM2-24B-A2B! 🎉 Hỗ trợ Day-0 cho LFM2-24B-A2B trong phiên bản ổn định vLLM ✅
Tổng cộng 24B tham số, chỉ 2B hoạt động trên mỗi token — vừa vặn trong 32 GB RAM và đạt 293 tok/s trên H100 🔥


08833922:22 24 thg 2
Hôm nay, chúng tôi phát hành mô hình LFM2 lớn nhất của mình: LFM2-24B-A2B 🐘
> 24B tham số tổng cộng
> 2.3B hoạt động trên mỗi token
> Được xây dựng trên kiến trúc LFM2 hybrid, nhận thức phần cứng
Nó kết hợp thiết kế nhanh, tiết kiệm bộ nhớ của LFM2 với cấu hình Mixture of Experts, vì vậy chỉ có 2.3B tham số được kích hoạt trong mỗi lần chạy.
Kết quả: hiệu suất hàng đầu, suy diễn nhanh chóng và khả năng mở rộng log-linear dự đoán được, tất cả trong một footprint MoE 32GB, 2B-active.
🧵

16
🎉 Chúc mừng @Alibaba_Qwen về Dòng Mô Hình Qwen3.5 Medium — Qwen3.5-35B-A3B, 122B-A10B, và 27B 🚀🚀🚀
Nhiều trí tuệ hơn, ít tính toán hơn — chính xác là điều mà cộng đồng mã nguồn mở yêu thích!
Hãy xem công thức của chúng tôi và thử tất cả với vLLM hôm nay!

Qwen23 giờ trước
🚀 Giới thiệu dòng mô hình Qwen 3.5 Medium
Qwen3.5-Flash · Qwen3.5-35B-A3B · Qwen3.5-122B-A10B · Qwen3.5-27B
✨ Thông minh hơn, tính toán ít hơn.
• Qwen3.5-35B-A3B hiện đã vượt qua Qwen3-235B-A22B-2507 và Qwen3-VL-235B-A22B — một lời nhắc nhở rằng kiến trúc tốt hơn, chất lượng dữ liệu và RL có thể thúc đẩy trí thông minh tiến lên, không chỉ là số lượng tham số lớn hơn.
• Qwen3.5-122B-A10B và 27B tiếp tục thu hẹp khoảng cách giữa các mô hình kích thước trung bình và mô hình tiên tiến — đặc biệt trong các kịch bản tác nhân phức tạp hơn.
• Qwen3.5-Flash là phiên bản sản xuất được lưu trữ phù hợp với 35B-A3B, với các tính năng:
– Độ dài ngữ cảnh 1M theo mặc định
– Công cụ tích hợp chính thức
🔗 Hugging Face:
🔗 ModelScope:
🔗 Qwen3.5-Flash API:
Thử nghiệm trong Qwen Chat 👇
Flash:
27B:
35B-A3B:
122B-A10B:
Rất mong được nghe bạn xây dựng gì với nó.

29
🔥Chúc mừng @Zai_org đã ra mắt GLM-5 — 744B tham số (40B hoạt động), được đào tạo trên 28.5T token, tích hợp DeepSeek Sparse Attention để giữ chi phí triển khai hợp lý trong khi vẫn bảo tồn khả năng xử lý ngữ cảnh dài.
vLLM có hỗ trợ ngày-0 cho GLM-5-FP8 với:
📖 DeepSeek Sparse Attention cho phục vụ ngữ cảnh dài hiệu quả
⚡️ MTP giải mã suy đoán
⚙️ Gọi công cụ + chế độ suy nghĩ
Công thức với cấu hình phục vụ và điểm chuẩn:
🔗

63
Hàng đầu
Thứ hạng
Yêu thích
