Maskinlæring for å forutsi hvilke MOF-er som faktisk kan lages i laboratoriet Metallorganiske rammeverk (MOF) er blant de mest justerbare materialene som noen gang er laget – porøse krystaller satt sammen av metallnoder og organiske forbindelser, med anvendelser fra gasslagring til katalyse. Beregningsmessig kan vi generere billioner av mulige strukturer. Problemet er at nesten ingen av dem blir syntetisert. Av tusenvis av MOF-screeninger publisert til dags dato, har bare rundt et dusin ført til faktisk laboratoriesyntese, og selv da velger kjemikere ofte «trygge» design som ligner kjente strukturer fremfor de beregningsoptimale. Andre Niyongabo Rubungo og medforfattere tar tak i denne flaskehalsen med tre ingredienser: (1) MOFMinE, et nykuratert datasett med nesten én million MOF-er med simulerte tøyningsenergier og frie energier for et undersett med 65 000 strukturer; (2) MOFSeq, en sekvensrepresentasjon som koder både lokale funksjoner (SMILES av byggeklosser) og globale funksjoner (topologi og tilkobling); og (3) LLM-Prop, en 35-million-parameter språkmodell forhåndstrent på data om rikelig deformasjon, og deretter finjustert på de dyrere frienergiberegningene. Resultatene er slående: en gjennomsnittlig absolutt feil på 0,789 kJ/mol, 97 % nøyaktighet i prediksjon av syntesebarhet, og 78 % nøyaktighet i valg av riktig polymorf blant konkurrerende strukturer. Selv når to polymorfer skiller seg med bare 0,16 kJ/mol, velger modellen fortsatt den riktige over 60 % av gangene. Implikasjonen er praktisk: det som en gang krevde dager med molekylær simulering, går nå fremover gjennom et nevralt nettverk. Dette åpner en vei for rutinemessig filtrering av beregningsmessige MOF-screeninger ved predikert syntesetilgjengelighet – slik at eksperimentelle forskere kan bevege seg utover «intuite» design og inn i uutforskede områder av kjemisk rom, samtidig som sjansene for at det som ser bra ut på datamaskinen faktisk kan lages i laboratoriet. Artikkel: