> eres una persona > que quiere entender la inferencia de llm > lees artículos > “usamos técnicas estándar” > ¿cuáles? ¿dónde está el código? > abre vllm > 100k líneas de c++ y python > núcleo cuda personalizado para imprimir > cierra la pestaña > ahora tienes este tweet > y mini-sglang > ~5k líneas de python > características de producción reales > cuatro procesos > servidor api > tokenizador > programador > detokenizador > habla a través de zeromq > simple > el programador es el jefe > recibe solicitudes > decide: prellenar o decodificar > las agrupa > envía trabajo a la gpu > prellenar...