Świetny materiał od @philipkiely i @Basetenco. 📗 Inżynieria wnioskowania mapuje stos technologiczny za nowoczesnym wnioskowaniem AI — czasy wykonania, infrastruktura i narzędzia — oraz zagłębia się w praktyczne szczegóły dotyczące obsługi LLM na GPU NVIDIA z TensorRT LLM i Dynamo. Jeśli przegapiłeś — warto przeczytać. 👇