> Anda adalah pribadi > yang ingin memahami inferensi llm > Anda membaca makalah > "kami menggunakan teknik standar" > yang mana? Di mana kodenya? > buka vllm > 100k baris C++ dan Python > kernel cuda khusus untuk pencetakan > tab tutup > sekarang Anda memiliki tweet ini > dan mini-sglang > ~5k baris python > fitur produksi aktual > empat proses > server API > tokenizer > penjadwal > detokenizer > bicara melalui zeromq > sederhana > penjadwal adalah bos > menerima permintaan > memutuskan: isi awal atau dekode > mengelompokkannya > mengirim pekerjaan ke gpu > prefill...