Bel calo da parte di @philipkiely e @Basetenco. 📗 Inference Engineering mappa la stack dietro l'inferenza AI moderna — runtime, infrastruttura e strumenti — e approfondisce i dettagli pratici per servire LLM su GPU NVIDIA con TensorRT LLM e Dynamo. Se te lo sei perso — vale la pena leggerlo. 👇