> vous êtes une personne > qui veut comprendre l'inférence llm > vous lisez des articles > « nous utilisons des techniques standard » > lesquelles ? où est le code ? > ouvrez vllm > 100k lignes de c++ et python > noyau cuda personnalisé pour l'impression > fermer l'onglet > maintenant vous avez ce tweet > et mini-sglang > ~5k lignes de python > fonctionnalités de production réelles > quatre processus > serveur api > tokenizer > planificateur > détokenizer > communiquer via zeromq > simple > le planificateur est le patron > reçoit des demandes > décide : pré-remplir ou décoder > les regroupe > envoie le travail au gpu > pré-remplir...