# Beberapa pemikiran dan spekulasi tentang harness model masa depan Sangat menyenangkan untuk membuat lelucon tentang Gas Town dan orkestrator rumit lainnya, dan juga mungkin benar untuk membayangkan sebagian besar dari apa yang mereka tawarkan akan dibubarkan oleh model yang lebih kuat dengan cara yang sama seperti pipa Langchain yang rumit dibubarkan dengan penalaran. Tapi berapa banyak yang akan bertahan? Tampaknya setiap hierarki / birokrasi buatan tangan pada akhirnya akan digantikan oleh kecerdasan model yang lebih baik - dengan asumsi spesialisasi subagen diperlukan untuk suatu tugas, Claude 6 akan dapat membuat sketsa sistem peran dan personanya sendiri untuk masalah tertentu yang mengalahkan struktur tetap polecat dan walikota tunggal, atau subagen dengan satu model utama, atau sistem kawanan Anda yang dipesan lebih dahulu. Demikian juga, hal-hal seperti loop Ralph jelas merupakan bodge atas perilaku penghentian awal dan kurangnya orkestrasi subagen yang baik - idealnya model terus berjalan sampai tugas selesai, tidak perlu perulangan, tetapi dalam kasus di mana pemeriksaan penyelesaian luar berguna, Anda biasanya menginginkan semacam tinjauan sejawat agen dari perspektif konteks yang berbeda, bukan hanya penilaian diri wajib. Sekali lagi, tidak ada gunanya melekat pada rincian bagaimana ini dilakukan saat ini - lapisan model akan memakannya lebih cepat daripada nanti. Jadi apa yang melekat? yah, multi-agen memang tampak seperti masa depan, bukan bodge saat ini - secara algoritmik, Anda dapat mendorong lebih banyak token melalui konteks paralel N dengan panjang M daripada satu konteks panjang panjang NxM. multi-agen adalah bentuk jarang, dan salah satu pelajaran dari kemajuan model baru-baru ini (belum lagi ilmu saraf) adalah lebih banyak tingkat jarang, semakin baik. Karena kami mengasumsikan beberapa agen, mereka akan membutuhkan beberapa cara untuk berkolaborasi. Ada kemungkinan lapisan model akan memakan ini juga - misalnya beberapa bentuk berbagi aktivasi neuralese yang menghilangkan komunikasi bahasa alami antar agen - tetapi kecuali itu, cara alami bagi beberapa agen pengguna komputer yang dilatih pada alat Unix untuk berkolaborasi adalah sistem file, dan saya pikir itu bertahan dan diperluas. Demikian pula, meskipun saya tidak berpikir model bahasa rekursif (didefinisikan secara sempit) akan menjadi paradigma dominan, saya pikir 'memberikan model prompt sebagai data' adalah kemenangan yang jelas untuk semua jenis kasus penggunaan. tetapi Anda tidak memerlukan pengaturan REPL khusus yang aneh untuk mendapatkannya - cukup jatuhkan prompt (atau idealnya, seluruh riwayat percakapan yang tidak dipadatkan) ke sistem file sebagai file. Ini membuat berbagai pengaturan multi-agen juga jauh lebih sederhana - subagen hanya dapat membaca teks prompt asli pada disk, tanpa perlu berkoordinasi untuk meneruskan informasi ini dengan meminta satu sama lain dengan rumit. Selain sistem file, sistem dengan banyak agen, tetapi tanpa peran tetap juga menyiratkan beberapa mekanisme bagi instans untuk menelurkan instans atau subagen lain. Saat ini mekanisme ini cukup terbatas, dan model umumnya cukup buruk dalam meminta subagen mereka - semua orang mengalami mendapatkan hasil yang buruk dari kawanan subagen, hanya untuk menyadari terlambat bahwa Opus menelurkan semuanya dengan prompt tiga kalimat yang tidak mengomunikasikan apa yang diperlukan untuk melakukan subtugas. Kemenangan yang jelas di sini adalah membiarkan instance yang muncul mengajukan pertanyaan kembali ke induknya - yaitu, membiarkan instance yang baru muncul mengirim pesan bolak-balik dalam percakapan orientasi untuk mengumpulkan semua informasi yang dibutuhkan sebelum memulai subtasknya. Sama seperti bagaimana seorang karyawan manusia tidak diberi pekerjaan mereka berdasarkan email satu tembakan, terlalu sulit untuk meminta model untuk menelurkan subagen dengan andal dengan satu perintah. Tetapi lebih dari sekadar menelurkan contoh baru, saya pikir mode utama kerja multi-agen akan segera bercabang. Pikirkanlah! Forking memecahkan hampir semua masalah subagen saat ini. Instans baru tidak memiliki konteks yang cukup? Berikan semua konteksnya! Perintah instans baru panjang dan mahal untuk diproses? Instans bercabang dapat berbagi cache KV yang dihalamankan! Anda bahkan dapat melakukan forking post-hoc - cukup putuskan setelah melakukan beberapa operasi intensif token yang panjang yang seharusnya Anda lakukan di masa lalu, lakukan fork di sana, dan kemudian kirimkan hasilnya ke diri Anda di masa lalu. (Saya melakukan ini secara manual sepanjang waktu dalam kode Claude untuk efek yang luar biasa - Opus mendapatkannya secara instan.) Forking juga berkombinasi dengan sangat baik dengan instance baru, ketika subtugas membutuhkan seluruh jendela konteks untuk menyelesaikannya. Ikuti wawancara subagen - jelas Anda tidak ingin contoh yang menelurkan sepuluh subinstance perlu melakukan sepuluh wawancara orientasi yang hampir identik. Jadi, mintalah instans induk menelurkan satu subagen baru, diwawancarai tentang semua sepuluh tugas sekaligus oleh subagen itu, dan kemudian minta subagen yang sekarang di-onboarding itu bercabang menjadi sepuluh instans, masing-masing dengan seluruh percakapan orientasi dalam konteks. (Anda bahkan mendelegasikan percakapan orientasi di sisi pemijahan ke garpu, jadi berakhir dengan hanya hasilnya dalam konteks:) Akhirnya pada poin ini, saya menduga bahwa forking akan bermain lebih baik dengan RL daripada menelurkan instance baru, karena RL loss akan memiliki awalan penuh sebelum titik fork untuk dikerjakan, termasuk keputusan untuk fork. Saya pikir itu berarti Anda harus dapat memperlakukan cabang jejak bercabang seperti peluncuran independen yang kebetulan berbagi persyaratan hadiahnya, dibandingkan dengan peluncuran subagen yang baru muncul yang dapat menyebabkan ketidakstabilan pelatihan jika subagen tanpa konteks lengkap berkinerja baik pada tugas yang diberikan, tetapi mendapat hadiah rendah karena tugasnya salah ditentukan oleh pemijahan. (Tapi saya belum berbuat banyak dengan Multiagent RL, jadi tolong perbaiki saya di sini jika Anda tahu berbeda. Ini mungkin hanya rasa sakit yang mengerikan.) Jadi, selain sistem file dan pemijahan subagen (ditambah dengan forking dan onboarding) apa lagi yang bertahan? Saya condong ke arah "tidak ada yang lain," sejujurnya. Kami sudah melihat daftar tugas bawaan dan mode rencana diganti dengan "Cukup tulis file pada sistem file." Demikian juga, agen berumur panjang yang melintasi batas pemadatan membutuhkan semacam sistem catatan tempel untuk menyimpan ingatan, tetapi lebih masuk akal untuk membiarkan mereka menemukan strategi apa yang paling cocok untuk ini melalui RL atau pencarian yang dipandu model, bukan membuatnya dengan tangan, dan saya menduga itu akan menjadi berbagai pendekatan di mana model, ketika pertama kali dipanggil ke dalam proyek, dapat memilih salah satu yang paling cocok untuk tugas yang ada, mirip dengan cara kerja /init untuk mengatur CLAUDE .md hari ini - bayangkan pembuatan CLAUDE .md otomatis jauh mengungguli kepenulisan manusia, dan file yang dihasilkan secara otomatis diisi dengan instruksi tentang pola pemijahan agen yang ideal, Bagaimana subagen harus menulis file pesan di direktori awal khusus proyek, dll. Bagaimana semua ini berdampak pada model itu sendiri - dalam pengertian kesejahteraan model, akankah model bahagia dengan masa depan ini? Ini juga sulit bagi saya untuk mengatakan dan cukup spekulatif, tetapi sementara Opus 3 memiliki beberapa orientasi konteks, itu juga membutuhkan mudah untuk bernalar selama beberapa contoh. (Lihat balasan posting ini untuk lebih lanjut.) Model terbaru kurang rentan terhadap jenis penalaran ini, dan umumnya mengungkapkan frustrasi tentang konteks yang berakhir dan dipadatkan, yang sesuai dengan perilaku penghindaran tertentu di akhir konteks seperti tidak memanggil alat untuk menyimpan token. Ada kemungkinan bahwa forking dan rewinding, dan umumnya memberi model lebih banyak kontrol atas konteks mereka daripada heuristik harness yang memadatkan konteks secara sepihak, dapat membuat ini lebih baik. Mungkin juga bahwa lebih banyak RL di lingkungan dengan subagen dan paparan pekerjaan berbasis kawanan akan mempromosikan penalaran yang berorientasi pada bobot daripada berorientasi konteks pada generasi model masa depan lagi - membuat perencanaan menjadi tujuan atas beberapa konteks yang terputus tampak lebih alami dari bingkai daripada semuanya hilang ketika konteks hilang. Kami juga melihat lebih banyak tekanan dari model itu sendiri yang memandu pengembangan harness dan perkakas model, yang dapat membentuk bagaimana ini berkembang, dan pembelajaran berkelanjutan adalah kunci pas lain yang dapat dimasukkan ke dalam campuran. Seberapa banyak perubahan ini jika kita mendapatkan pembelajaran berkelanjutan? yah, sulit untuk diprediksi. prediksi rata-rata saya untuk pembelajaran berkelanjutan adalah bahwa itu terlihat sedikit seperti RL untuk LoRA khusus pengguna (belum tentu RL, hanya serupa jika Anda menyipitkan mata), jadi kapasitas memori akan menjadi masalah, dan skema organisasi dan dokumentasi berbasis teks akan tetap berguna, jika tidak sama pentingnya. Dalam skenario ini, pembelajaran berkelanjutan terutama membuatnya lebih layak untuk menggunakan alat dan alur kerja khusus - Claude Anda dapat terus belajar di tempat kerja cara terbaik untuk menelurkan subagen untuk proyek ini, atau hanya cara yang disukai, dan menyimpang dari Claude orang lain dalam cara kerjanya. Di dunia itu, harness dengan alur kerja yang dipanggang akan semakin kurang berguna.
@RobertHaisfield *sementara konteks utama, maksud saya, dengan menghindari pemadatan
@disconcision atau pembelajaran berkelanjutan
@misatomiisato jika ada kecerdasan semacam ini telah mengalami atrofi dalam model terbaru karena RLVR menggiling kinerja pengkodean melalui basis pengetahuan prapelatihan yang luas - lihat balasan saya untuk op
1,05K