Stiamo collaborando con la comunità OSS per eliminare le congetture dal servizio disaggregato integrando NVIDIA Dynamo nello stack, con supporto per tutti i principali framework di inferenza. 🔹 La comunità @sgl_project sta migliorando le prestazioni dell'inferenza AI, riducendo le congetture e consentendo un'esecuzione dei modelli più veloce, efficiente e scalabile. 🔹 Mooncake AI ha costruito il primo backend SGLang per AIConfigurator, consentendo un supporto rapido per modelli come Llama, Qwen e DeepSeek implementando il layer collector per operazioni fondamentali come GEMM e attenzione. 🔹 @alibaba_cloud ha integrato AIConfigurator nel suo AI Serving Stack su Kubernetes (ACK), utilizzando il motore di orchestrazione RoleBasedGroup (RBG) per automatizzare i deployment e gestire la disaggregazione di prefill/decode. Il risultato: 1,86× maggiore throughput su Qwen3-235B‑FP8 mantenendo TTFT < 5 s e ITL < 40 ms. Leggi il blog tecnico →