> sen bir insansın > kim LLM çıkarımını anlamak istiyor > gazete okuyorsun > "standart teknikler kullanıyoruz" > hangileri? Kod nerede? > açık vllm > 100 bin c++ ve python satırı > baskı için özel cuda çekirdeği > kapat sekmesi > şimdi bu tweet'in var > ve mini-sglang > ~5k satır python > gerçek prodüksiyon özellikleri > dört süreç > API sunucusu > tokenizer > zamanlayıcı > detokenizer > zeromq üzerinden konuşuyoruz > basit > zamanlayıcı patron > talepler alır > karar verir: ön doldurma veya çözme > onları partiler > işleri GPU'ya gönderiyor > ön doldurma...