> você é uma pessoa > que quer entender a inferência de llm > você lê artigos > “usamos técnicas padrão” > quais? onde está o código? > abra o vllm > 100k linhas de c++ e python > kernel cuda personalizado para impressão > feche a aba > agora você tem este tweet > e mini-sglang > ~5k linhas de python > recursos de produção reais > quatro processos > servidor api > tokenizador > agendador > detokenizador > conversa via zeromq > simples > o agendador é o chefe > recebe solicitações > decide: pré-preencher ou decodificar > agrupa-as > envia trabalho para gpu > pré-preencher...