"Come puoi accusare qualcuno senza prove?" "La distillazione non può essere considerata furto... distillazione!... È una questione di fare grandi modelli, può essere considerato furto?" Subito dopo ci sono state alcune frasi difficili da capire, come "soft label", "temperature scaling", "dark knowledge" e simili, che hanno fatto ridere tutti nella stanza, riempiendo il laboratorio di un'atmosfera gioiosa. Si è rivolto al bancone e ha detto: "Dammi due A100, e aggiungi un modello teacher pre-addestrato." e ha emesso una fattura di nove centesimi... no, una fattura di novemila dollari per la potenza di calcolo. La gente gli ha chiesto: "Hai davvero imparato a usare il Transformer?" Kong Yiji si è arrossito, le vene sulla fronte si sono gonfiate, e ha ribattuto: "La Knowledge Distillation è stata proposta da Hinton... cosa ne sapete voi! È trasferimento di conoscenza, è compressione, è... è stare sulle spalle dei giganti!" Il proprietario ha detto: "Il benchmark del tuo piccolo modello, non è che l'hai 'preso in prestito' dal teacher?" Kong Yiji ha aperto gli occhi e ha detto: "Io ho appreso la capacità di generalizzazione! Le informazioni sulla distribuzione nei logits, il trasferimento della dark knowledge, non è qualcosa che potete capire voi che guardate solo la top-1 accuracy?" Poi si è rivolto alla folla, il suo atteggiamento è diventato più sincero, "Non credete? Guardate, il mio student model ha solo un decimo dei parametri del teacher, la velocità di inferenza è aumentata otto volte, e l'efficacia è scesa solo di due punti... solo due punti!"