Onlangs werd ontdekt dat LLM's verschillende talen op vergelijkbare manieren coderen, een soort Platonische representatie van woorden. Het strekt zich nu uit tot de wetenschap:: 60 ML-modellen voor moleculen, materialen en eiwitten (alle met verschillende training) convergeren naar een vergelijkbare codering van de moleculaire structuur
Dit werkt niet op structuren die buiten de distributie vallen, dus de trainingsdata blijft beperkt. Paper:
46