Química de moléculas únicas autónomas: quando o aprendizado por reforço profundo quebra ligações uma a uma Quebrar uma ligação química específica em uma única molécula—enquanto deixa seus vizinhos intocados—é uma das coisas mais difíceis que se pode fazer na química. Uma ponta de STM pode fazer isso injetando elétrons de tunelamento em um local preciso, mas esses experimentos requerem um especialista que ajusta manualmente a posição da ponta, a tensão de polarização e a corrente para cada tentativa. Muito pouco e nada acontece; muito e você destrói a molécula. Zhiwen Zhu e coautores agora demonstram uma plataforma totalmente autónoma que realiza reações seletivas de ligações em múltiplas etapas sem intervenção humana. O sistema deles é um porfirina tetrabromada (TPP-Br₄) sobre Au(111)—quatro ligações equivalentes C–Br ao redor de um núcleo de porfirina, dissociadas sequencialmente ao longo de caminhos predefinidos (orto, para, orto*, orto-Z) através de diferentes intermediários. O pipeline tem três estágios. A detecção de pontos-chave YOLOv7 e a segmentação U-Net localizam moléculas e determinam a orientação. Um classificador ResNet-18 lê os patches ao redor de cada local de bromo para codificar o estado molecular como um vetor binário de 4 bits. Em seguida, um agente RL Soft Actor-Critic decide a colocação da ponta, a tensão e a corrente. O agente interage diretamente com o STM via TCP, manipula, reescaneia e recebe recompensas em camadas—positivas para a clivagem correta de uma única ligação, negativas para nenhuma reação, ativação em local errado ou degradação. Para lidar com a escassez de dados—apenas 948 eventos em 36 horas—eles exploram a simetria D₄ₕ da molécula através da experiência de replay de transformação invariante, gerando trajetórias virtuais equivalentes sem experimentos adicionais. O agente descobre a física real. A tensão ótima aumenta com cada etapa de debrominação (~2.5 V para a primeira ligação, ~3.2 V para a última), refletindo a estrutura eletrônica em evolução dos intermediários radicais. Ele posiciona a ponta acima das ligações-alvo, consistente com a decadência espacial da excitação de elétrons de tunelamento, e se adapta às mudanças nas condições da ponta em tempo real. As taxas de sucesso em uma única etapa alcançam 50–79%, com a conclusão total de quatro etapas em 29–35%—totalmente sem orientação humana. De uma perspectiva de ML, o algoritmo navega em restrições extremas: regiões de sucesso diminutas, recompensas ruidosas esparsas, ambientes não estacionários e modos de falha irreversíveis. A regularização de entropia do SAC fornece um equilíbrio de exploração, enquanto o replay aumentado por simetria previne o colapso da política. Isso aponta para agentes de IA que conduzem ativamente experimentos, aprendendo protocolos ótimos a partir da interação direta com sistemas físicos. Artigo: