Hầu hết các nền tảng suy diễn không được xây dựng cho các mô hình tùy chỉnh. Inference Container chuyên dụng thì có. Điều phối theo cấp độ công việc, kiểm soát lưu lượng dựa trên chính sách và tối ưu hóa kernel một cách trực tiếp. Khách hàng đã thấy tốc độ suy diễn nhanh hơn từ 1.4x đến 2.6x trong việc tạo video trong sản xuất.