مؤخرا، وجد أن نماذج اللغة الكبيرة تشفر لغات مختلفة بطرق متشابهة، وهي نوع من التمثيل الأفلاتوني للكلمات. يمتد الآن إلى العلم: 60 نموذجا من ML للجزيئات والمواد والبروتينات (كل منها بتدريب مختلف) تتقارب نحو ترميز مماثل للبنية الجزيئية
هذا لا يعمل على هياكل التوزيع، لذا لا يزال التدريب محدود البيانات. الورقة:
‏‎43‏