> du bist eine Person > die verstehen möchte, wie LLM-Inferenz funktioniert > du liest Papers > „wir verwenden Standardtechniken“ > welche? wo ist der Code? > öffne vllm > 100k Zeilen C++ und Python > benutzerdefinierter CUDA-Kernel für das Drucken > Tab schließen > jetzt hast du diesen Tweet > und mini-sglang > ~5k Zeilen Python > tatsächliche Produktionsmerkmale > vier Prozesse > API-Server > Tokenizer > Scheduler > Detokenizer > kommunizieren über ZeroMQ > einfach > der Scheduler ist der Boss > empfängt Anfragen > entscheidet: vorab füllen oder dekodieren > bündelt sie > sendet Arbeit an die GPU > vorab füllen...