Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Robert Youssef
Astaga... Stanford baru saja menunjukkan mengapa LLM terdengar cerdas tetapi masih gagal saat kenyataan mendorong kembali.
Makalah ini membahas mode kegagalan brutal yang pernah dilihat semua orang oleh agen bangunan: berikan model tugas yang kurang ditentukan dan dengan senang hati berhalusinasi bagian yang hilang, menghasilkan rencana yang terlihat lancar dan runtuh saat dieksekusi.
Wawasan intinya sederhana tetapi menghancurkan untuk pendekatan prompt-only: penalaran rusak ketika prasyarat tidak diketahui. Dan sebagian besar tugas dunia nyata penuh dengan hal yang tidak diketahui.
Solusi Stanford disebut Self-Querying Bidirectional Categorical Planning (SQ-BCP), dan memaksa model untuk berhenti berpura-pura mengetahui hal-hal yang tidak mereka ketahui.
Alih-alih mengasumsikan fakta yang hilang, setiap tindakan secara eksplisit melacak prasyaratnya sebagai:
• Puas
• Dilanggar
• Tidak dikenal
Tidak diketahui adalah kuncinya. Ketika model mengenai yang tidak diketahui, itu tidak diizinkan untuk melanjutkan.
Itu harus:
1. Ajukan pertanyaan yang ditargetkan untuk menyelesaikan fakta yang hilang
atau
2. Mengusulkan tindakan menjembatani yang menetapkan kondisi terlebih dahulu (mengukur, memeriksa, menyiapkan, dll.)
Hanya setelah semua prasyarat diselesaikan, rencana dapat dilanjutkan.
Tapi inilah terobosan yang sebenarnya: rencana tidak diterima karena terlihat dekat dengan tujuan.
Mereka diterima hanya jika mereka lulus langkah verifikasi formal menggunakan pemeriksaan penarikan teori kategori. Skor kesamaan hanya digunakan untuk peringkat, tidak pernah untuk kebenaran.
Terjemahan: rencana cantik tidak dihitung. Rencana yang dapat dieksekusi melakukan.
Hasilnya liar.
Pada tugas WikiHow dan RecipeNLG dengan batasan tersembunyi:
• Pelanggaran sumber daya turun dari 26% → 14,9%
• Dan 15,7% → 5,8%
sambil mempertahankan skor kualitas yang kompetitif.
Pencarian lebih lanjut tidak membantu.
Rantai pemikiran yang lebih panjang tidak membantu.
Bahkan Self-Ask saja masih melewatkan kendala.
Apa yang benar-benar berhasil adalah memperlakukan ketidakpastian sebagai objek kelas satu dan menolak untuk bergerak maju sampai diselesaikan.
Makalah ini diam-diam menggambar garis di pasir:
Kegagalan agen bukan tentang ukuran model.
Mereka tentang berpura-pura informasi yang tidak lengkap sudah lengkap.
Jika Anda menginginkan agen yang bertindak, bukan hanya menceritakan, inilah arah ke depan.

48
Teratas
Peringkat
Favorit
