Snyggt fall från @philipkiely och @Basetenco. 📗 Inference Engineering kartlägger stacken bakom modern AI-inferens — körtider, infrastruktur och verktyg — och fördjupar sig i de praktiska detaljerna kring att serva LLM:er på NVIDIA GPU:er med TensorRT LLM och Dynamo. Jag är inte säker på det — värd att läsa. 👇