> jesteś osobą > która chce zrozumieć wnioskowanie llm > czytasz artykuły > „używamy standardowych technik” > które? gdzie jest kod? > otwórz vllm > 100k linii c++ i pythona > niestandardowy rdzeń cuda do drukowania > zamknij kartę > teraz masz tego tweeta > i mini-sglang > ~5k linii pythona > rzeczywiste funkcje produkcyjne > cztery procesy > serwer api > tokenizator > harmonogram > detokenizator > komunikacja przez zeromq > proste > harmonogram jest szefem > otrzymuje żądania > decyduje: prefill czy dekodowanie > grupuje je > wysyła pracę do gpu > prefill...