最近,发现LLMs以相似的方式编码不同的语言,这是一种对词语的柏拉图式表征。 现在它扩展到科学领域:: 60个用于分子、材料和蛋白质的机器学习模型(所有模型的训练方式不同)趋向于对分子结构的相似编码。
这在分布外结构上不起作用,因此训练数据仍然有限。 论文:
53