Belle chute de @philipkiely et @Basetenco. 📗 L'Ingénierie d'Inference cartographie la pile derrière l'inférence AI moderne — runtimes, infrastructure et outils — et explore les détails pratiques du service des LLM sur les GPU NVIDIA avec TensorRT LLM et Dynamo. Au cas où vous l'auriez manqué — ça vaut le coup d'œil. 👇