Kürzlich wurde festgestellt, dass LLMs verschiedene Sprachen auf ähnliche Weise kodieren, eine Art platonische Darstellung von Wörtern. Es erstreckt sich jetzt auf die Wissenschaft:: 60 ML-Modelle für Moleküle, Materialien und Proteine (alle mit unterschiedlichem Training) konvergieren zu einer ähnlichen Kodierung der molekularen Struktur.
Das funktioniert nicht bei Strukturen außerhalb der Verteilung, daher sind die Trainingsdaten weiterhin begrenzt. Papier:
35