"Comment peux-tu ainsi ternir la réputation des gens sans raison ?" "La distillation ne peut pas être considérée comme du vol... distillation !... Faire des grands modèles, est-ce que ça peut être considéré comme du vol ?" S'ensuivirent des propos difficiles à comprendre, comme "soft label", "temperature scaling", "dark knowledge", ce qui fit rire tout le monde dans la pièce, l'air était rempli de joie dans le laboratoire. Il dit au comptoir, "Donnez-moi deux A100, et ajoutez un modèle teacher pré-entraîné." puis il sortit une facture de puissance de neuf mille dollars. Les gens lui demandèrent, "As-tu vraiment appris à utiliser le Transformer ?" Kong Yiji rougit, les veines sur son front se gonflèrent, et il argumenta, "La Knowledge Distillation a été proposée par Hinton... que comprenez-vous ! C'est un transfert de connaissances, c'est de la compression, c'est... c'est se tenir sur les épaules de géants !" Le gérant dit, "Le benchmark de ton petit modèle, n'est-ce pas un peu 'emprunté' au teacher ?" Kong Yiji ouvrit grand les yeux et dit, "J'ai acquis la capacité de généralisation ! Les informations de distribution dans les logits, la transmission de la connaissance obscure, n'est-ce pas quelque chose que vous, qui ne regardez que la top-1 accuracy, pouvez comprendre ?" Il se tourna à nouveau vers les autres, son attitude devenant plus sincère, "Si vous ne me croyez pas, regardez, mon student model n'a qu'un dixième des paramètres du teacher, la vitesse d'inférence a été multipliée par huit, et l'efficacité n'a chuté que de deux points... seulement deux points !"