Teemme yhteistyötä OSS-yhteisön kanssa poistaaksemme arvailua eritellystä palvelusta integroimalla NVIDIA Dynamon pinoon, tukien kaikkia merkittäviä päättelypalvelukehyksiä. 🔹 @sgl_project yhteisö parantaa tekoälypäättelykykyä – vähentäen arvailua ja mahdollistaen nopeamman, tehokkaamman ja skaalautuvan mallin toteutuksen. 🔹 Mooncake AI rakensi ensimmäisen SGLang-taustajärjestelmän AIConfiguratorille, mahdollistaen nopean tuen malleille kuten Llama, Qwen ja DeepSeek toteuttamalla keräinkerroksen ydintoiminnoille kuten GEMM ja attention. 🔹 @alibaba_cloud integroi AIConfiguratorin AI Serving Stack on Kubernetes (ACK) -järjestelmäänsä käyttäen RoleBasedGroupin (RBG) orkestrointimoottoria käyttöönottojen automatisointiin ja esitäytön/dekoodauksen hallintaan. Tulos: 1,86× korkeampi läpimenon Qwen3-235B-FP8:lla, säilyttäen TTFT < 5 s ja ITL < 40 ms. Lue tekninen blogi →