> jsi člověk > kdo chce pochopit inferenci LLM > čtete články > "používáme standardní techniky" > které? Kde je kód? > Open VLLM > 100 000 řádků C++ a Pythonu > vlastní jádro cuda pro tisk > zavřít záložku > teď máte tento tweet > a mini-sglang > ~5k řádků pythonu > skutečných produkčních prvků > čtyři procesy > API server > tokenizér > plánovač > detokenizér > rozhovor přes Zeromqa > jednoduché > plánovač je šéf > přijímá požadavky > rozhoduje: předvyplnit nebo dekódovat > je vydává > posílá práci na GPU > předplnění...