"Bạn sao lại vu khống người khác như vậy?" "Chưng cất không thể tính là ăn cắp... chưng cất! ... Làm mô hình lớn, có thể tính là ăn cắp không?" Tiếp theo là một số câu khó hiểu, như "soft label", "temperature scaling", "dark knowledge"... khiến mọi người trong phòng đều cười ầm lên, không khí trong và ngoài phòng thí nghiệm tràn ngập niềm vui. Anh ta nói với quầy, "Cho tôi hai chiếc A100, và một mô hình teacher đã được huấn luyện trước." rồi thanh toán chín văn lớn tiền - không, là chín nghìn đô la cho hóa đơn tính toán. Mọi người hỏi anh ta, "Bạn thật sự đã học được Transformer rồi sao?" Khổng Ý Kỷ đỏ mặt, các tĩnh mạch trên trán nổi lên, tranh luận, "Knowledge Distillation là do Hinton đề xuất... các bạn hiểu gì! Đây là chuyển giao kiến thức, là nén, là... là đứng trên vai của người khổng lồ!" Người quản lý nói, "Benchmark mà mô hình nhỏ của bạn chạy ra, không phải là 'mượn' từ teacher đó chứ?" Khổng Ý Kỷ mở to mắt nói, "Tôi đã học được khả năng tổng quát! Thông tin phân bố trong logits, sự truyền tải của kiến thức ẩn, đâu phải là điều mà các bạn chỉ biết nhìn top-1 accuracy có thể hiểu được?" Anh ta lại quay sang mọi người, thái độ trở nên chân thành, "Nếu không tin, các bạn xem, mô hình student của tôi chỉ có một phần mười tham số của teacher, tốc độ suy diễn nhanh gấp tám lần, hiệu quả chỉ giảm hai điểm... chỉ hai điểm thôi!"