Ótima queda do @philipkiely e @Basetenco. 📗 A Engenharia de Inferência mapeia a pilha por trás da inferência moderna de IA — tempos de execução, infraestrutura e ferramentas — e aprofunda-se nos detalhes práticos de servir LLMs em GPUs NVIDIA com TensorRT LLM e Dynamo. Se você não viu — vale a pena ler. 👇