Recientemente, se descubrió que los LLMs codifican diferentes idiomas de maneras similares, una especie de representación platónica de las palabras. Ahora se extiende a la ciencia:: 60 modelos de ML para moléculas, materiales y proteínas (todos con diferentes entrenamientos) convergen hacia una codificación similar de la estructura molecular.
Esto no funciona en estructuras fuera de distribución, por lo que los datos de entrenamiento siguen siendo limitados. Documento:
55