Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Автономная химия на уровне одной молекулы: когда глубокое обучение с подкреплением разрывает связи одну за другой
Разрыв конкретной химической связи в одной молекуле — это одна из самых сложных задач в химии, при этом соседи остаются нетронутыми. Кончик СТМ может сделать это, вводя туннельные электроны в точное место, но эти эксперименты требуют эксперта, который вручную настраивает положение кончика, смещение напряжения и ток для каждой попытки. Слишком мало — и ничего не происходит; слишком много — и вы разрушаете молекулу.
Живэнь Чжу и соавторы теперь демонстрируют полностью автономную платформу, которая выполняет многоступенчатые реакции, выбирая связи без человеческого вмешательства. Их система — тетрабромированный порфирин (TPP-Br₄) на Au(111) — четыре эквивалентные связи C–Br вокруг порфиринового ядра, которые последовательно диссоциируются вдоль заранее определенных путей (орто, пара, орто*, орто-Z) через различные промежуточные продукты.
Процесс состоит из трех этапов. Обнаружение ключевых точек YOLOv7 и сегментация U-Net локализуют молекулы и определяют ориентацию. Классификатор ResNet-18 считывает участки вокруг каждого бромного сайта, чтобы закодировать молекулярное состояние в виде 4-битного двоичного вектора. Затем агент RL Soft Actor-Critic решает, где разместить кончик, какое напряжение и ток использовать. Агент взаимодействует напрямую с СТМ через TCP, манипулирует, пересканирует и получает многоуровневые вознаграждения — положительные за правильный разрыв одной связи, отрицательные за отсутствие реакции, активацию на неправильном сайте или деградацию.
Чтобы справиться с нехваткой данных — всего 948 событий за 36 часов — они используют симметрию D₄ₕ молекулы через инвариантный опыт повторного воспроизведения, генерируя эквивалентные виртуальные траектории без дополнительных экспериментов.
Агент открывает настоящую физику. Оптимальное смещение увеличивается с каждым шагом дебромирования (~2.5 В для первой связи, ~3.2 В для последней), отражая развивающуюся электронную структуру радикальных промежуточных продуктов. Он позиционирует кончик над целевыми связями, что соответствует пространственному затуханию возбуждения туннельными электронами, и адаптируется к изменениям состояния кончика в реальном времени. Успехи в одноступенчатых реакциях достигают 50–79%, с полной четырехступенчатой завершенностью на уровне 29–35% — полностью без человеческого руководства.
С точки зрения машинного обучения алгоритм преодолевает экстремальные ограничения: крошечные области успеха, разреженные шумные вознаграждения, нестабильные среды и необратимые режимы неудачи. Регуляризация энтропии SAC обеспечивает баланс исследования, в то время как дополненное симметрией повторное воспроизведение предотвращает коллапс политики.
Это указывает на AI-агентов, которые активно проводят эксперименты, обучаясь оптимальным протоколам через прямое взаимодействие с физическими системами.
Статья:

Топ
Рейтинг
Избранное
