Sono appena caduto in un tunnel di coniglio su qualcosa chiamato "Ipotesi della Rappresentazione Platonica" e mi sta turbando. Fondamentalmente, man mano che i modelli di AI diventano più grandi e capaci, le loro rappresentazioni interne iniziano a convergere. Modelli di visione, modelli di linguaggio, diverse architetture. Stanno lentamente approssimando lo stesso modello sottostante della realtà. Se questo si dimostra vero, è una grande scoperta. Potremmo tradurre tra modelli invece di trattare ciascuno come una scatola nera sigillata, riutilizzare i guadagni di interpretabilità tra i sistemi e forse allineare i modelli a livello di rappresentazione, non solo controllando le uscite. L'implicazione più folle è filosofica. Forse il SIGNIFICATO non è solo una convenzione umana. Forse ci sono coordinate naturali nella realtà e apprenditori sufficientemente forti continuano a riscoprirle. Quindi, cosa sta realmente guidando la convergenza? I dati, l'obiettivo, qualche profondo bias di semplicità? E dove si rompe?