Aegaeon:市場上同時 LLM 服務的有效 GPU 池化 北大與阿里雲 Aegaeon 在阿里雲模型工作室已經進行了超過三個月的測試部署,目前正在服務從 1.8B 到 72B 參數的數十個模型。它將這些模型所需的 GPU 數量從 1,192 減少到 213,突顯出 82% 的 GPU 資源節省。