Chimie autonome à molécule unique : quand l'apprentissage par renforcement profond rompt les liaisons une à une Rompre une liaison chimique spécifique dans une seule molécule—tout en laissant ses voisines intactes—est l'une des choses les plus difficiles à réaliser en chimie. Une pointe STM peut le faire en injectant des électrons de tunnel à un emplacement précis, mais ces expériences nécessitent un expert qui ajuste manuellement la position de la pointe, la tension de polarisation et le courant pour chaque tentative. Trop peu et rien ne se passe ; trop et vous détruisez la molécule. Zhiwen Zhu et ses co-auteurs démontrent maintenant une plateforme entièrement autonome qui réalise des réactions multi-étapes, sélectives pour les liaisons, sans intervention humaine. Leur système est un porphyrine tétrabromée (TPP-Br₄) sur Au(111)—quatre liaisons C–Br équivalentes autour d'un noyau de porphyrine, dissociées séquentiellement le long de chemins prédéfinis (ortho, para, ortho*, ortho-Z) à travers différents intermédiaires. Le pipeline comporte trois étapes. La détection de points clés YOLOv7 et la segmentation U-Net localisent les molécules et déterminent leur orientation. Un classificateur ResNet-18 lit les zones autour de chaque site de brome pour encoder l'état moléculaire sous forme de vecteur binaire de 4 bits. Ensuite, un agent RL Soft Actor-Critic décide du placement de la pointe, de la tension et du courant. L'agent interagit directement avec le STM via TCP, manipule, rescane et reçoit des récompenses échelonnées—positives pour une rupture de liaison unique correcte, négatives pour aucune réaction, activation sur un mauvais site ou dégradation. Pour faire face à la rareté des données—seulement 948 événements sur 36 heures—ils exploitent la symétrie D₄ₕ de la molécule grâce à une expérience de replay par transformation invariante, générant des trajectoires virtuelles équivalentes sans expériences supplémentaires. L'agent découvre la physique réelle. La tension optimale augmente à chaque étape de débromation (~2,5 V pour la première liaison, ~3,2 V pour la dernière), reflétant la structure électronique évolutive des intermédiaires radicaux. Il positionne la pointe au-dessus des liaisons cibles, en accord avec la décroissance spatiale de l'excitation par électrons de tunnel, et s'adapte aux changements de condition de la pointe en temps réel. Les taux de succès en une seule étape atteignent 50–79 %, avec une complétion totale en quatre étapes à 29–35 %—entièrement sans guidance humaine. D'un point de vue ML, l'algorithme navigue dans des contraintes extrêmes : régions de succès minuscules, récompenses bruyantes et rares, environnements non stationnaires et modes d'échec irréversibles. La régularisation d'entropie de SAC fournit un équilibre d'exploration, tandis que le replay augmenté par symétrie empêche l'effondrement de la politique. Cela ouvre la voie à des agents IA qui mènent activement des expériences, apprenant des protocoles optimaux par interaction directe avec des systèmes physiques. Article :