Недавно было обнаружено, что LLM кодируют разные языки схожими способами, своего рода платоническое представление слов. Теперь это распространяется на науку:: 60 ML моделей для молекул, материалов и белков (все с разным обучением) сходятся к схожему кодированию молекулярной структуры
Это не работает на структурах вне распределения, поэтому данные для обучения все еще ограничены. Статья:
47