Acabo de caer en un agujero de conejo sobre algo llamado la "Hipótesis de Representación Platónica" y me está volviendo loco. Básicamente, a medida que los modelos de IA se vuelven más grandes y capaces, sus representaciones internas comienzan a converger. Modelos de visión, modelos de lenguaje, diferentes arquitecturas. Todos están aproximándose lentamente al mismo modelo subyacente de la realidad. Si esto se sostiene, sería un gran desbloqueo. Podríamos traducir entre modelos en lugar de tratar cada uno como una caja negra sellada, reutilizar las ganancias de interpretabilidad a través de los sistemas y tal vez alinear los modelos a nivel de representación, no solo controlando las salidas. La implicación más loca es filosófica. Tal vez el SIGNIFICADO no sea solo una convención humana. Tal vez hay coordenadas naturales en la realidad y los aprendices suficientemente fuertes las redescubren una y otra vez. Entonces, ¿qué está impulsando realmente la convergencia? ¿Los datos, el objetivo, algún sesgo de simplicidad profunda? ¿Y dónde se rompe?