> je bent een persoon > die llm-inferentie wil begrijpen > je leest papers > “we gebruiken standaardtechnieken” > welke dan? waar is de code? > open vllm > 100k regels c++ en python > aangepaste cuda-kernel voor afdrukken > sluit tabblad > nu heb je deze tweet > en mini-sglang > ~5k regels python > echte productkenmerken > vier processen > api-server > tokenizer > scheduler > detokenizer > praat via zeromq > eenvoudig > scheduler is de baas > ontvangt verzoeken > beslist: prefill of decode > batcht ze > stuurt werk naar gpu > prefill...