🚨 Semua orang terus bertanya mengapa agen AI berantakan saat Anda melewati demo. Makalah dari Google DeepMind, Meta, Amazon, dan Yale ini diam-diam memberikan jawaban yang tidak nyaman. LLM saat ini tidak beralasan. Mereka bereaksi. Mereka menghasilkan token teks yang lancar demi token, tetapi mereka tidak merencanakan, merefleksikan, atau memutuskan kapan harus berhenti dan berpikir kembali. Mereka terdengar cerdas karena bahasa adalah kekuatan mereka, bukan karena penilaian. Makalah ini berpendapat bahwa kemajuan nyata berasal dari mengubah LLM menjadi penalaran agen. Sistem yang dapat menetapkan tujuan, memecahnya menjadi subtujuan, memilih tindakan, mengevaluasi hasil, dan mengubah strategi di tengah penerbangan. Mereka memformalkan penalaran sebagai lingkaran, bukan perintah: Amati → merencanakan → bertindak → mencerminkan status → perbarui → ulangi Ini adalah pergeseran kunci. Alih-alih satu rantai pemikiran yang panjang, model mempertahankan status tugas internal. Ini memutuskan apa yang harus dipikirkan selanjutnya, bukan hanya bagaimana menyelesaikan kalimat. Itu sebabnya CoT dataran tinggi yang lebih panjang. Anda mendapatkan lebih banyak kata, bukan keputusan yang lebih baik. Salah satu wawasan paling tajam: penalaran runtuh ketika kontrol dan penalaran bercampur. Ketika satu prompt mencoba merencanakan, menjalankan, mengkritik, dan menyelesaikan, kesalahan bertambah secara diam-diam. Sistem agen memisahkan peran. Perencanaan eksplisit. Eksekusi tercakup. Refleksi tertunda dan terstruktur. Makalah ini menunjukkan keuntungan dramatis hanya dengan memberikan model: • tujuan menengah eksplisit • pos pemeriksaan untuk evaluasi diri • izin untuk meninggalkan jalan yang buruk...