Хороший дроп от @philipkiely и @Basetenco. 📗 Inference Engineering описывает стек, стоящий за современным AI-инференсом — среды выполнения, инфраструктура и инструменты — и углубляется в практические детали обслуживания LLM на GPU NVIDIA с помощью TensorRT LLM и Dynamo. Если вы пропустили — стоит прочитать. 👇