Jeg har bare falt ned i et kaninhull på noe som heter «Platonic Representation Hypothesis», og det tuller med hodet mitt. I bunn og grunn, etter hvert som AI-modeller blir større og mer kapable, begynner deres interne representasjoner å konvergere. Visjonsmodeller, språkmodeller, ulike arkitekturer. De nærmer seg sakte den samme underliggende modellen av virkeligheten. Hvis dette holder, er det en stor opplåsning. Vi kunne oversette mellom modeller i stedet for å behandle hver enkelt som en forseglet svart boks, gjenbruke tolkbarhetsseire på tvers av systemer, og kanskje justere modellene på representasjonsnivå, ikke bare ved å overvåke output. Den villeste implikasjonen er filosofisk. Kanskje MENING ikke bare er en menneskelig konvensjon. Kanskje finnes det naturlige koordinater i virkeligheten, og tilstrekkelig sterke elever gjenoppdager dem stadig. Så hva driver egentlig konvergensen? Dataene, objektivet, en dyp enkelhetsbias? Og hvor går den i stykker?