Автономна одномолекулярна хімія: коли глибоке підкріплення розриває зв'язки по одному Розірвати певний хімічний зв'язок в одній молекулі — залишаючи сусідів недоторканими — це одне з найскладніших завдань у хімії. STM-наконечник може зробити це, вводячи тунельні електрони у точне місце, але для таких експериментів потрібен експерт, який вручну коригує положення кінчика, напругу зміщення та струм для кожної спроби. Занадто мало — і нічого не відбувається; Занадто багато — і ти знищуєш молекулу. Чживень Чжу та співавтори тепер демонструють повністю автономну платформу, яка виконує багатокрокові реакції з селекцією зв'язку без втручання людини. Їхня система — це тетрабромінований порфірин (TPP-Br₄) на Au(111) — чотирьох еквівалентних C–Br зв'язків навколо порфіринового ядра, які послідовно дисоціюють по заздалегідь визначених шляхах (орто, пара, орто*, орто-Z) через різні проміжні продукти. Трубопровід має три етапи. Виявлення ключових точок YOLOv7 та сегментація U-Net знаходять молекули та визначають орієнтацію. Класифікатор ResNet-18 зчитує ділянки навколо кожного бромного сайту, щоб кодувати молекулярний стан як 4-бітний бінарний вектор. Потім агент Soft Actor-Critic RL вирішує розташування наконечника, напругу та струм. Агент безпосередньо взаємодіє зі STM через TCP, маніпулює, повторно сканує і отримує багаторівневі винагороди — позитивні для правильного розриву однозв'язку, негативні для відсутності реакції, активацію на неправильному місці або деградацію. Щоб впоратися з дефіцитом даних — лише 948 подій за 36 годин — вони використовують симетрію D₄h молекули через повторення досвіду інваріантного перетворення, генеруючи еквівалентні віртуальні траєкторії без додаткових експериментів. Агент відкриває справжню фізику. Оптимальне зміщення зростає з кожним кроком дебромінації (~2,5 В для першого зв'язку, ~3,2 В для останнього), відображаючи еволюцію електронної структури радикальних проміжних продуктів. Він розташовує кінчик над цільовими зв'язками, що відповідає просторовому розпаду тунельного збудження електронів, і адаптується до змін умов кінчика в реальному часі. Успішність однокроків досягає 50–79%, а повне проходження чотирикрокового — 29–35% — повністю без людського керівництва. З точки зору машинного навчання, алгоритм долає крайні обмеження: крихітні зони успіху, рідкісні шумні винагороди, нестаціонарні середовища та незворотні режими відмови. Регуляризація ентропії SAC забезпечує баланс у дослідженні, тоді як повтор із посиленням симетрії запобігає краху політики. Це вказує на агентів ШІ, які активно проводять експерименти, навчаючись оптимальним протоколам через безпосередню взаємодію з фізичними системами. Стаття: