我們最新的 PyTorch 社區部落格介紹了 SGLang 團隊的作者 Biao (Stefan) H.,他談到了 SGLang 如何通過改進的記憶體效率、前綴快取、推測解碼和服務性能來推進混合 Mamba 加上注意力模型。 🖇️ 閱讀部落格: #PyTorch #AIInfrastructure #SGLang #LLM