Cel mai recent blog al comunității noastre PyTorch de la echipa SGLang acoperă modul în care SGLang avansează modelele hibride Mamba plus Attention cu eficiență îmbunătățită a memoriei, cache cu prefixe, decodare speculativă și performanță de servire. 🖇️Citește blogul: #PyTorch #AIInfrastructure #SGLang #LLM