Nuestro último blog comunitario de PyTorch del equipo de SGLang cubre cómo SGLang avanza los modelos híbridos Mamba más modelos de Atención con una mejor eficiencia de memoria, almacenamiento en caché de prefijos, decodificación especulativa y rendimiento de servicio. 🖇️Lee el blog: #PyTorch #AIInfrastructure #SGLang #LLM