Nosso mais recente blog da comunidade PyTorch traz o autor da SGLang Team, Biao (Stefan) H., sobre como o SGLang avança modelos híbridos Mamba mais Attention com eficiência de memória aprimorada, cache de prefixos, decodificação especulativa e desempenho de serviço. 🖇️ Leia o blog: #PyTorch #AIInfrastructure #SGLang #LLM