O scădere frumoasă de la @philipkiely și @Basetenco. 📗 Inference Engineering cartografiază stivul din spatele inferenței AI moderne — runtime, infrastructură și unelte — și analizează detaliile practice ale servirii de la LLM-uri pe GPU-urile NVIDIA cu TensorRT LLM și Dynamo. Dacă știu dacă știu — merită citit. 👇