> você é uma pessoa > quem quer entender inferência LLM > você lê artigos > "usamos técnicas padrão" > quais? Onde está o código? > vllm aberto > 100 mil linhas de C++ e Python > kernel cuda personalizado para impressão > fechar aba > agora você tem esse tweet > e mini-sglang > ~5k linhas de python > características reais de produção > quatro processos > servidor API > tokenizador > agendador > detokenizador > conversar sobre zeromq > simples > agendador é o chefe > recebe pedidos > decide: prepreenchimento ou decodificação > os agrupa > envia trabalho para a GPU > preenchimento...