DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Salah satu agen pertama yang saya buat sangat sederhana: Itu mengambil informasi dari toko vektor, memformatnya sebagai HTML, dan mengirimkannya melalui email ke pengguna. Tidak ada yang lebih sederhana dari ini, namun, agen ini gagal sekitar 1% dari waktu. Tidak ada kesalahan. Tidak ada peringatan. Itu hanya mengembalikan sampah. Inilah kebenaran pahitnya: Agen banyak gagal. Dan mereka gagal diam-diam. Setiap saat. Anda tidak bisa mempercayai LLM untuk melakukan hal yang benar setiap saat. Sekarang, saya telah membangun dan mengerahkan beberapa lusin agen, dan berikut adalah beberapa hal yang benar-benar berhasil: 1. Observabilitas sejak hari pertama. Jika Anda tidak dapat melihat apa yang dilakukan agen Anda, Anda tidak dapat men-debug, memperbaikinya, atau mempercayainya. Setiap agen harus menghasilkan pelacakan yang menunjukkan alur permintaan lengkap, interaksi model, penggunaan token, dan metadata waktu. 2. Pagar pembatas pada input dan output. Segala sesuatu yang masuk dan keluar dari LLM harus diperiksa dengan kode deterministik. Bahkan hal-hal yang tidak mungkin pecah pada akhirnya akan rusak. 3. Evaluasi LLM-as-a-judge. Anda dapat membuat juri sederhana menggunakan LLM untuk mengevaluasi output agen Anda secara otomatis. Beri label himpunan data, tulis prompt evaluasi, dan ulangi hingga hakim Anda menangkap sebagian besar kegagalan. 4. Analisis kesalahan. Anda dapat mengumpulkan sampel kegagalan, mengkategorikannya, dan mendiagnosis kesalahan yang paling sering terjadi. 5. Rekayasa konteks. Seringkali, agen gagal karena konteksnya berisik, kelebihan beban, atau tidak relevan. Mempelajari cara menjaga konteks tetap relevan sangat besar. 6. Lingkaran umpan balik manusia. Terkadang pagar pembatas terbaik adalah manusia dalam lingkaran, terutama untuk keputusan berisiko tinggi.

Teratas

Peringkat

Favorit