私たちはOSSコミュニティと協力し、NVIDIA Dynamoをスタックに統合し、主要な推論サービスフレームワークすべてをサポートすることで、分散したサービングの推測を排除しています。 🔹 コミュニティ@sgl_project AI推論のパフォーマンスを向上させており、推測を減らし、より高速で効率的かつスケーラブルなモデル実行を可能にします。 🔹 Mooncake AIはAIConfigurator向けに初のSGLangバックエンドを構築し、Llama、Qwen、DeepSeekなどのモデルを迅速にサポートできるようにしました。これは、GEMMやattentionなどのコア操作のためのコレクタ層を実装することで実現しました。 🔹 @alibaba_cloud AIConfiguratorをKubernetes上のAI Serving Stack(ACK)に統合し、RoleBasedGroup(RBG)オーケストレーションエンジンを用いてデプロイの自動化やプリフィル/デコードの再分解管理を行っています。 その結果×Qwen3-235B-FP8で1.86高いスループットを実現し、TTFT<5秒、ITL<40msを維持しました。 技術ブログを読んで→