Récemment, il a été constaté que les LLMs codent différentes langues de manière similaire, une sorte de représentation platonique des mots. Cela s'étend maintenant à la science : 60 modèles ML pour les molécules, les matériaux et les protéines (tous avec des entraînements différents) convergent vers un codage similaire de la structure moléculaire.
Cela ne fonctionne pas sur des structures hors distribution, donc les données d'entraînement restent limitées. Article :
52