🔥Felicitări lui @Zai_org pentru lansarea GLM-5 — 744B parametri (40B activi), antrenat pe tokenuri 28.5T, integrând DeepSeek Sparse Attention pentru a menține costurile de implementare gestionabile, păstrând în același timp capacitatea de context lung. vLLM are suport de ziua 0 pentru GLM-5-FP8 cu: 📖 DeepSeek Atenție redusă pentru servicii eficiente pe termen lung ⚡️ Decodare speculativă MTP ⚙️ Apel unelte + mod de gândire Rețetă cu configurații de servire și benchmark-uri: 🔗