> sei una persona > che vuole capire l'inferenza llm > leggi articoli > “utilizziamo tecniche standard” > quali? dove è il codice? > apri vllm > 100k righe di c++ e python > kernel cuda personalizzato per la stampa > chiudi la scheda > ora hai questo tweet > e mini-sglang > ~5k righe di python > funzionalità di produzione reali > quattro processi > server api > tokenizer > scheduler > detokenizer > comunicano tramite zeromq > semplice > lo scheduler è il capo > riceve richieste > decide: prefill o decode > le batcha > invia lavoro alla gpu > prefill...