Hóa học phân tử đơn tự động: khi học sâu tăng cường phá vỡ liên kết từng cái một Việc phá vỡ một liên kết hóa học cụ thể trong một phân tử đơn—trong khi để các phân tử lân cận không bị ảnh hưởng—là một trong những điều khó khăn nhất bạn có thể làm trong hóa học. Một đầu dò STM có thể làm điều này bằng cách tiêm các electron hầm vào một vị trí chính xác, nhưng những thí nghiệm này yêu cầu một chuyên gia điều chỉnh vị trí đầu dò, điện áp và dòng điện cho mỗi lần thử. Quá ít thì không có gì xảy ra; quá nhiều thì bạn sẽ phá hủy phân tử. Zhiwen Zhu và các đồng tác giả hiện đang chứng minh một nền tảng hoàn toàn tự động thực hiện các phản ứng chọn lọc liên kết nhiều bước mà không cần sự can thiệp của con người. Hệ thống của họ là một porphyrin tetrabrom hóa (TPP-Br₄) trên Au(111)—bốn liên kết C–Br tương đương xung quanh một lõi porphyrin, bị phân tách tuần tự theo các con đường đã định trước (ortho, para, ortho*, ortho-Z) thông qua các trung gian khác nhau. Quy trình có ba giai đoạn. Phát hiện điểm chính YOLOv7 và phân đoạn U-Net xác định vị trí các phân tử và xác định hướng. Một bộ phân loại ResNet-18 đọc các mảng xung quanh mỗi vị trí brom để mã hóa trạng thái phân tử dưới dạng một vector nhị phân 4-bit. Sau đó, một tác nhân RL Soft Actor-Critic quyết định vị trí đầu dò, điện áp và dòng điện. Tác nhân tương tác trực tiếp với STM qua TCP, thao tác, quét lại và nhận phần thưởng theo cấp bậc—tích cực cho việc cắt liên kết đơn đúng, tiêu cực cho không có phản ứng, kích hoạt sai vị trí, hoặc suy thoái. Để đối phó với sự khan hiếm dữ liệu—chỉ có 948 sự kiện trong 36 giờ—họ khai thác tính đối xứng D₄ₕ của phân tử thông qua trải nghiệm phát lại biến đổi bất biến, tạo ra các quỹ đạo ảo tương đương mà không cần thêm thí nghiệm. Tác nhân khám phá vật lý thực. Điện áp tối ưu tăng lên với mỗi bước khử brom (~2.5 V cho liên kết đầu tiên, ~3.2 V cho liên kết cuối), phản ánh cấu trúc điện tử đang phát triển của các trung gian gốc tự do. Nó định vị đầu dò trên các liên kết mục tiêu, nhất quán với sự suy giảm không gian của kích thích electron hầm, và thích ứng với các thay đổi điều kiện đầu dò trong thời gian thực. Tỷ lệ thành công từng bước đạt 50–79%, với tỷ lệ hoàn thành bốn bước đầy đủ ở mức 29–35%—hoàn toàn không có sự hướng dẫn của con người. Từ góc độ ML, thuật toán điều hướng các ràng buộc cực đoan: các vùng thành công nhỏ, phần thưởng ồn ào thưa thớt, môi trường không ổn định, và các chế độ thất bại không thể đảo ngược. Quy định entropy của SAC cung cấp sự cân bằng khám phá, trong khi phát lại tăng cường đối xứng ngăn chặn sự sụp đổ chính sách. Điều này chỉ ra các tác nhân AI mà tích cực tiến hành thí nghiệm, học các giao thức tối ưu từ sự tương tác trực tiếp với các hệ thống vật lý. Bài báo: