Наш последний блог сообщества PyTorch от команды SGLang охватывает, как SGLang продвигает гибридные модели Mamba плюс Attention с улучшенной эффективностью памяти, кэшированием префиксов, спекулятивным декодированием и производительностью обслуживания. 🖇️Читать блог: #PyTorch #AIInfrastructure #SGLang #LLM