Một sự giảm giá tuyệt vời từ @philipkiely và @Basetenco. 📗 Kỹ thuật suy diễn lập bản đồ ngăn xếp phía sau suy diễn AI hiện đại — thời gian chạy, cơ sở hạ tầng và công cụ — và đi sâu vào các chi tiết thực tiễn của việc phục vụ LLM trên GPU NVIDIA với TensorRT LLM và Dynamo. Nếu bạn chưa biết — rất đáng để đọc. 👇