Notre dernier blog communautaire PyTorch de l'équipe SGLang traite de la manière dont SGLang fait progresser les modèles hybrides Mamba plus Attention avec une efficacité mémoire améliorée, un cache de préfixe, un décodage spéculatif et des performances de service. 🖇️Lisez le blog : #PyTorch #AIInfrastructure #SGLang #LLM