Náš nejnovější komunitní blog PyTorch od týmu SGLang popisuje, jak SGLang posouvá hybridní modely Mamba plus Attention díky lepší efektivitě paměti, cachování předponců, spekulativnímu dekódování a výkonu servisu. 🖇️Přečtěte si blog: #PyTorch #AIInfrastructure #SGLang #LLM