> du er et menneske > som ønsker å forstå llm-inferens > du leser artikler > "vi bruker standardteknikker" > hvilke? Hvor er koden? > åpen vllm > 100 000 linjer med C++ og Python > tilpasset CUDA-kjerne for utskrift > lukk fanen > nå har du denne tweeten > og mini-sglang > ~5 000 linjer python > faktiske produksjonsfunksjoner > fire prosesser > API-server > tokenizer > planlegger > detokenizer > snakker over zeromq > enkelt > planleggeren er sjefen > mottar forespørsler > avgjør: prefill eller dekoding > batcher dem > sender arbeid til GPU-en > prefill...