Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Astaga... Stanford baru saja menunjukkan mengapa LLM terdengar cerdas tetapi masih gagal saat kenyataan mendorong kembali.
Makalah ini membahas mode kegagalan brutal yang pernah dilihat semua orang oleh agen bangunan: berikan model tugas yang kurang ditentukan dan dengan senang hati berhalusinasi bagian yang hilang, menghasilkan rencana yang terlihat lancar dan runtuh saat dieksekusi.
Wawasan intinya sederhana tetapi menghancurkan untuk pendekatan prompt-only: penalaran rusak ketika prasyarat tidak diketahui. Dan sebagian besar tugas dunia nyata penuh dengan hal yang tidak diketahui.
Solusi Stanford disebut Self-Querying Bidirectional Categorical Planning (SQ-BCP), dan memaksa model untuk berhenti berpura-pura mengetahui hal-hal yang tidak mereka ketahui.
Alih-alih mengasumsikan fakta yang hilang, setiap tindakan secara eksplisit melacak prasyaratnya sebagai:
• Puas
• Dilanggar
• Tidak dikenal
Tidak diketahui adalah kuncinya. Ketika model mengenai yang tidak diketahui, itu tidak diizinkan untuk melanjutkan.
Itu harus:
1. Ajukan pertanyaan yang ditargetkan untuk menyelesaikan fakta yang hilang
atau
2. Mengusulkan tindakan menjembatani yang menetapkan kondisi terlebih dahulu (mengukur, memeriksa, menyiapkan, dll.)
Hanya setelah semua prasyarat diselesaikan, rencana dapat dilanjutkan.
Tapi inilah terobosan yang sebenarnya: rencana tidak diterima karena terlihat dekat dengan tujuan.
Mereka diterima hanya jika mereka lulus langkah verifikasi formal menggunakan pemeriksaan penarikan teori kategori. Skor kesamaan hanya digunakan untuk peringkat, tidak pernah untuk kebenaran.
...

Teratas
Peringkat
Favorit
