Автономная химия на уровне одной молекулы: когда глубокое обучение с подкреплением разрывает связи одну за другой Разрыв конкретной химической связи в одной молекуле — это одна из самых сложных задач в химии, при этом соседи остаются нетронутыми. Кончик СТМ может сделать это, вводя туннельные электроны в точное место, но эти эксперименты требуют эксперта, который вручную настраивает положение кончика, смещение напряжения и ток для каждой попытки. Слишком мало — и ничего не происходит; слишком много — и вы разрушаете молекулу. Живэнь Чжу и соавторы теперь демонстрируют полностью автономную платформу, которая выполняет многоступенчатые реакции, выбирая связи без человеческого вмешательства. Их система — тетрабромированный порфирин (TPP-Br₄) на Au(111) — четыре эквивалентные связи C–Br вокруг порфиринового ядра, которые последовательно диссоциируются вдоль заранее определенных путей (орто, пара, орто*, орто-Z) через различные промежуточные продукты. Процесс состоит из трех этапов. Обнаружение ключевых точек YOLOv7 и сегментация U-Net локализуют молекулы и определяют ориентацию. Классификатор ResNet-18 считывает участки вокруг каждого бромного сайта, чтобы закодировать молекулярное состояние в виде 4-битного двоичного вектора. Затем агент RL Soft Actor-Critic решает, где разместить кончик, какое напряжение и ток использовать. Агент взаимодействует напрямую с СТМ через TCP, манипулирует, пересканирует и получает многоуровневые вознаграждения — положительные за правильный разрыв одной связи, отрицательные за отсутствие реакции, активацию на неправильном сайте или деградацию. Чтобы справиться с нехваткой данных — всего 948 событий за 36 часов — они используют симметрию D₄ₕ молекулы через инвариантный опыт повторного воспроизведения, генерируя эквивалентные виртуальные траектории без дополнительных экспериментов. Агент открывает настоящую физику. Оптимальное смещение увеличивается с каждым шагом дебромирования (~2.5 В для первой связи, ~3.2 В для последней), отражая развивающуюся электронную структуру радикальных промежуточных продуктов. Он позиционирует кончик над целевыми связями, что соответствует пространственному затуханию возбуждения туннельными электронами, и адаптируется к изменениям состояния кончика в реальном времени. Успехи в одноступенчатых реакциях достигают 50–79%, с полной четырехступенчатой завершенностью на уровне 29–35% — полностью без человеческого руководства. С точки зрения машинного обучения алгоритм преодолевает экстремальные ограничения: крошечные области успеха, разреженные шумные вознаграждения, нестабильные среды и необратимые режимы неудачи. Регуляризация энтропии SAC обеспечивает баланс исследования, в то время как дополненное симметрией повторное воспроизведение предотвращает коллапс политики. Это указывает на AI-агентов, которые активно проводят эксперименты, обучаясь оптимальным протоколам через прямое взаимодействие с физическими системами. Статья: