Bài báo tuyệt vời cho những người xây dựng tác nhân. Hệ thống đa tác nhân thường không đạt yêu cầu. Vấn đề không phải là cách mà các tác nhân được xây dựng. Mà là cách chúng được tổ chức. Chúng chủ yếu được xây dựng với các chuỗi cố định, cây và đồ thị không thể thích ứng khi các nhiệm vụ phát triển. Nhưng nếu hệ thống có thể tự học các mẫu phối hợp của riêng nó thì sao? Nghiên cứu mới này giới thiệu Puppeteer, một khung học cách điều phối các tác nhân một cách linh hoạt thay vì dựa vào các cấu trúc được thiết kế thủ công. Thay vì định nghĩa trước các cấu trúc hợp tác, một người điều phối sẽ chọn tác nhân nào nói tiếp dựa trên trạng thái cuộc trò chuyện đang phát triển. Chính sách được huấn luyện bằng REINFORCE, tối ưu hóa trực tiếp cho sự thành công của nhiệm vụ. Thay vì tìm kiếm qua các cấu trúc đồ thị phức tạp, họ tuần tự hóa mọi thứ thành các lựa chọn tác nhân liên tiếp. Cách tiếp cận này tránh được độ phức tạp tổ hợp. Điều đáng ngạc nhiên là: các mẫu chu kỳ gọn gàng phát triển một cách tự nhiên. Không phải là các đồ thị rộng lớn, mà là các vòng chặt chẽ nơi 2-3 tác nhân xử lý hầu hết công việc. Điều đáng chú ý là hệ thống tự phát hiện ra hiệu quả. Kết quả: - Trên các bài toán toán học GSM-Hard: 70% độ chính xác (tăng từ 13.5% cho mô hình cơ bản). - Trên MMLU-Pro: 83% (so với 76% cơ bản). - Trên phát triển phần mềm SRDD: 76.4% (so với 60.6% cơ bản). Những cải tiến này đi kèm với việc tiêu thụ token giảm. Bài báo cho thấy rằng chi phí token liên tục giảm trong suốt quá trình huấn luyện trong khi hiệu suất cải thiện. Họ cũng chứng minh rằng quá trình chọn tác nhân thỏa mãn các thuộc tính Markov, có nghĩa là trạng thái hiện tại đơn thuần xác định tác nhân tiếp theo tối ưu. Không cần theo dõi toàn bộ lịch sử. Tại sao điều này quan trọng đối với các nhà phát triển AI: sự đơn giản được học hỏi vượt trội hơn độ phức tạp được thiết kế. Một bộ định tuyến đã được huấn luyện với một vài tác nhân chuyên biệt có thể vượt trội hơn các quy trình làm việc thủ công phức tạp trong khi giảm thiểu chi phí tính toán.