🔥Onnittelut @Zai_org GLM-5:n lanseerauksesta — 744B parametrit (40B aktiivinen), koulutettu 28,5T tokeneilla, integroitu DeepSeek Sparse Attention, jotta käyttöönottokustannukset pysyvät hallittavissa säilyttäen samalla pitkän kontekstin kapasiteetin. vLLM tukee GLM-5-FP8:aa päivännolla: 📖 DeepSeek Sparse Attention tehokkaaseen pitkäaikaiseen palveluun ⚡️ MTP:n spekulatiivinen dekoodaus ⚙️ Työkalukutsu + ajattelutila Resepti tarjoilukonfiguraatioineen ja vertailuineen: 🔗