Autonome Einzelmolekülchemie: Wenn Deep Reinforcement Learning Bindungen einzeln bricht Eine spezifische chemische Bindung in einem einzelnen Molekül zu brechen – während die Nachbarn unberührt bleiben – ist eine der schwierigsten Aufgaben in der Chemie. Eine STM-Spitze kann dies tun, indem sie Tunnel-Elektronen an einem präzisen Ort injiziert, aber diese Experimente erfordern einen Experten, der die Spitzenposition, die Bias-Spannung und den Strom für jeden Versuch manuell anpasst. Zu wenig und es passiert nichts; zu viel und das Molekül wird zerstört. Zhiwen Zhu und Mitautoren demonstrieren nun eine vollständig autonome Plattform, die mehrstufige, bindungsselektive Reaktionen ohne menschliches Eingreifen durchführt. Ihr System ist ein tetrabromiertes Porphyrin (TPP-Br₄) auf Au(111) – vier äquivalente C–Br-Bindungen um einen Porphyrin-Kern, die sequenziell entlang vordefinierter Pfade (ortho, para, ortho*, ortho-Z) durch verschiedene Zwischenprodukte dissociiert werden. Die Pipeline hat drei Phasen. YOLOv7-Schlüsselpunktdetektion und U-Net-Segmentierung lokalisieren Moleküle und bestimmen die Orientierung. Ein ResNet-18-Klassifikator liest Patches um jede Bromstelle, um den molekularen Zustand als 4-Bit-Binärvektor zu kodieren. Dann entscheidet ein Soft Actor-Critic RL-Agent über die Platzierung der Spitze, die Spannung und den Strom. Der Agent interagiert direkt mit dem STM über TCP, manipuliert, scannt erneut und erhält gestaffelte Belohnungen – positiv für die korrekte Einzelbindungs-Spaltung, negativ für keine Reaktion, falsche Aktivierung oder Degradation. Um mit der Datenknappheit umzugehen – nur 948 Ereignisse über 36 Stunden – nutzen sie die D₄ₕ-Symmetrie des Moleküls durch invariant-transformierte Erfahrungsspielwiederholung, um äquivalente virtuelle Trajektorien ohne zusätzliche Experimente zu erzeugen. Der Agent entdeckt echte Physik. Die optimale Bias-Spannung steigt mit jedem Debromierungsschritt (~2,5 V für die erste Bindung, ~3,2 V für die letzte) und spiegelt die sich entwickelnde elektronische Struktur der radikalen Zwischenprodukte wider. Er positioniert die Spitze über den Zielbindungen, was mit dem räumlichen Abklingen der Tunnel-Elektronenausregung übereinstimmt, und passt sich in Echtzeit an Änderungen der Spitzenbedingungen an. Die Erfolgsquoten für Einzelversuche erreichen 50–79 %, mit einer vollständigen vierstufigen Vollziehung von 29–35 % – ganz ohne menschliche Anleitung. Aus der Perspektive des maschinellen Lernens navigiert der Algorithmus extreme Einschränkungen: winzige Erfolgsregionen, spärliche rauschende Belohnungen, nicht-stationäre Umgebungen und irreversible Fehlermodi. Die Entropieregularisierung von SAC sorgt für ein Gleichgewicht bei der Erkundung, während die symmetrie-augmentierte Wiederholung einen Zusammenbruch der Politik verhindert. Dies weist auf KI-Agenten hin, die aktiv Experimente durchführen und optimale Protokolle aus direkter Interaktion mit physikalischen Systemen lernen. Papier: