Autonominen yksimolekyylinen kemia: kun syvä vahvistusoppiminen rikkoo sidoksia yksi kerrallaan Tietyn kemiallisen sidoksen katkaiseminen yhdessä molekyylissä – jättäen sen naapurit koskemattomiksi – on yksi vaikeimmista asioista, mitä kemiassa voi tehdä. STM-kärki voi tehdä tämän ruiskuttamalla tunnelointielektroneja tarkkaan paikkaan, mutta nämä kokeet vaativat asiantuntijan, joka manuaalisesti säätää kärjen sijaintia, esijännitettä ja virtaa jokaisella yrityksellä. Liian vähän, eikä mitään tapahdu; liikaa ja tuhoat molekyylin. Zhiwen Zhu ja hänen kanssakirjoittajansa osoittavat nyt täysin autonomisen alustan, joka suorittaa monivaiheisia, sidosvalikoivia reaktioita ilman ihmisen väliintuloa. Niiden järjestelmä on tetrabromittu porfyriini (TPP-Br₄) Au(111):llä—neljä ekvivalenttia C–Br-sidosta porfyriinin ytimen ympärillä, jotka dissosioituvat peräkkäin ennalta määriteltyjä reittejä pitkin (ortho, para, ortho*, ortho-Z) eri väliaineissa. Putkessa on kolme vaihetta. YOLOv7:n avainpisteiden tunnistus ja U-Net-segmentointi paikantavat molekyylit ja määrittävät suunnan. ResNet-18-luokitin lukee patchit jokaisen bromikohdan ympäriltä koodatakseen molekyylitilan 4-bittisenä binäärivektorina. Sitten Soft Actor-Critic RL -agentti päättää kärjen sijoittelusta, jännitteestä ja virrasta. Aine on suoraan vuorovaikutuksessa STM:n kanssa TCP:n kautta, manipuloi, skannaa uudelleen ja saa porrastettuja palkintoja—positiivinen oikeasta yksisidoksen halkaisemisesta, negatiivinen ei reaktiosta, väärän kohdan aktivaatiosta tai hajoamisesta. Datan niukkuuden hallitsemiseksi – vain 948 tapahtumaa 36 tunnin aikana – he hyödyntävät molekyylin D₄h-symmetriaa invariantti-muunnoskokemuksen toiston kautta, tuottaen vastaavat virtuaaliset radat ilman lisäkokeita. Agentti löytää todellisen fysiikan. Optimaalinen bias kasvaa jokaisella debrominaatiovaiheella (~2,5 V ensimmäiselle sidokselle, ~3,2 V viimeiselle), mikä heijastaa radikaalien välituotteiden kehittyvää elektronirakennetta. Se sijoittaa kärjen kohdesidosten yläpuolelle, mikä on linjassa tunnelointielektronien virityksen spatiaalisen hajoamisen kanssa, ja mukautuu kärjen olosuhteiden muutoksiin reaaliajassa. Yksittäisen askeleen onnistumisprosentti on 50–79 %, ja täysi neljän vaiheen suoritus on 29–35 % – täysin ilman ihmisen ohjausta. Koneoppimisen näkökulmasta algoritmi navigoi äärimmäisten rajoitteiden läpi: pienet onnistumisalueet, harvat meluisat palkinnot, ei-paikallaan olevat ympäristöt ja peruuttamattomat vikatilat. SAC:n entropian säännöllistäminen tarjoaa tutkimustasapainon, kun taas symmetriaa paranneltu toisto estää politiikan romahtamisen. Tämä viittaa tekoälyagentteihin, jotka tekevät aktiivisesti kokeita ja oppivat optimaaliset protokollat suorasta vuorovaikutuksesta fyysisten järjestelmien kanssa. Artikkeli: