Kertas banger untuk pembangun agen. Sistem multi-agen sering kurang diberikan. Masalahnya bukanlah bagaimana agen itu sendiri dibangun. Begitulah cara mereka diatur. Mereka sebagian besar dibangun dengan rantai tetap, pohon, dan grafik yang tidak dapat beradaptasi seiring berkembangnya tugas. Tapi bagaimana jika sistem dapat mempelajari pola koordinasinya sendiri? Penelitian baru ini memperkenalkan Puppeteer, kerangka kerja yang belajar mengatur agen secara dinamis daripada mengandalkan topologi buatan tangan. Alih-alih mendefinisikan struktur kolaborasi sebelumnya, orkestrator memilih agen mana yang berbicara selanjutnya berdasarkan status percakapan yang berkembang. Kebijakan dilatih dengan REINFORCE, mengoptimalkan langsung untuk keberhasilan tugas. Alih-alih mencari topologi grafik yang kompleks, mereka membuat serial semuanya menjadi pilihan agen berurutan. Pembingkaian ulang ini menghindari kompleksitas kombinatorial. Apa yang muncul mengejutkan: pola siklik kompak berkembang secara alami. Bukan grafik yang luas, tetapi loop ketat di mana 2-3 agen menangani sebagian besar pekerjaan. Bagian yang luar biasa adalah bahwa sistem menemukan efisiensi dengan sendirinya. Hasil: - Pada soal matematika GSM-Hard: akurasi 70% (naik dari 13,5% untuk model dasar saja). - Pada MMLU-Pro: 83% (vs 76% baseline). - Pada pengembangan perangkat lunak SRDD: 76,4% (vs 60,6% baseline). Keuntungan ini datang dengan pengurangan konsumsi token. Makalah ini menunjukkan bahwa biaya token secara konsisten menurun selama pelatihan sementara kinerja meningkat. Mereka juga membuktikan bahwa proses pemilihan agen memenuhi sifat Markov, yang berarti keadaan saat ini saja menentukan agen berikutnya yang optimal. Tidak perlu melacak riwayat lengkap. Mengapa itu penting bagi pengembang AI: kesederhanaan yang dipelajari mengalahkan kompleksitas yang direkayasa. Router terlatih dengan segelintir agen khusus dapat mengungguli alur kerja buatan tangan yang rumit sambil memotong overhead komputasi.