Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Santiago
Ilmuwan komputer. Saya mengajar Teknik AI/ML hard-core di https://t.co/THCAAZcBMu. YouTube: https://t.co/pROi08OZYJ
Satu hal yang tidak dapat dilakukan oleh agen LLM dengan baik:
Setiap chatbot jadul dapat tetap pada naskah, sementara agen LLM cenderung menjadi nakal dan mengarahkan pelanggan ke dalam percakapan aneh.
Tapi tentu saja, chatbot lama terasa robotik, dan pelanggan tidak ingin berbicara dengan mereka.
Mereka dapat diandalkan, tetapi orang tidak menyukainya,
Agen LLM adalah kebalikannya.
Mereka cair dan adaptif, tetapi mereka bisa mengatakan apa saja. Anda benar-benar berhalusinasi dari bencana.
Orang-orang di belakang Parlant melakukan sesuatu yang sangat cerdas dengan versi baru mereka: Anda dapat membangun agen dengan yang terbaik dari kedua dunia.
Agen dapat secara dinamis beralih antara agen LLM dan mode ketat berdasarkan apa yang terjadi dalam percakapan.
Risiko tidak seragam di seluruh percakapan:
1. Ketika pelanggan mengajukan pertanyaan produk biasa, Parlant melibatkan LLM untuk menghasilkan jawaban yang lancar dan bermanfaat.
2. Saat pelanggan meminta pengembalian dana, Parlant menggunakan mode ketat untuk hanya mengembalikan templat respons yang disetujui dan digerakkan oleh kontekstual.
Anda mengontrol "mode komposisi" agen berdasarkan pengamatan bahasa alami tentang keadaan percakapan saat ini.
Ini adalah ide yang sangat keren. Ini harus secara signifikan meningkatkan keadaan seni saat ini dalam chatbots.
Anda dapat memeriksanya di sini:
Diagram terlampir menunjukkan cara kerja mode komposisi dinamis.
42
Salah satu agen pertama yang saya buat sangat sederhana:
Itu mengambil informasi dari toko vektor, memformatnya sebagai HTML, dan mengirimkannya melalui email ke pengguna.
Tidak ada yang lebih sederhana dari ini, namun, agen ini gagal sekitar 1% dari waktu.
Tidak ada kesalahan. Tidak ada peringatan. Itu hanya mengembalikan sampah.
Inilah kebenaran pahitnya:
Agen banyak gagal. Dan mereka gagal diam-diam. Setiap saat. Anda tidak bisa mempercayai LLM untuk melakukan hal yang benar setiap saat.
Sekarang, saya telah membangun dan mengerahkan beberapa lusin agen, dan berikut adalah beberapa hal yang benar-benar berhasil:
1. Observabilitas sejak hari pertama. Jika Anda tidak dapat melihat apa yang dilakukan agen Anda, Anda tidak dapat men-debug, memperbaikinya, atau mempercayainya. Setiap agen harus menghasilkan pelacakan yang menunjukkan alur permintaan lengkap, interaksi model, penggunaan token, dan metadata waktu.
2. Pagar pembatas pada input dan output. Segala sesuatu yang masuk dan keluar dari LLM harus diperiksa dengan kode deterministik. Bahkan hal-hal yang tidak mungkin pecah pada akhirnya akan rusak.
3. Evaluasi LLM-as-a-judge. Anda dapat membuat juri sederhana menggunakan LLM untuk mengevaluasi output agen Anda secara otomatis. Beri label himpunan data, tulis prompt evaluasi, dan ulangi hingga hakim Anda menangkap sebagian besar kegagalan.
4. Analisis kesalahan. Anda dapat mengumpulkan sampel kegagalan, mengkategorikannya, dan mendiagnosis kesalahan yang paling sering terjadi.
5. Rekayasa konteks. Seringkali, agen gagal karena konteksnya berisik, kelebihan beban, atau tidak relevan. Mempelajari cara menjaga konteks tetap relevan sangat besar.
6. Lingkaran umpan balik manusia. Terkadang pagar pembatas terbaik adalah manusia dalam lingkaran, terutama untuk keputusan berisiko tinggi.
94
Fundamental teknik adalah pengganda kekuatan untuk AI.
Jika Anda memiliki pengujian, AI dapat menjalankannya setelah setiap perubahan dan mengoreksi sendiri. Jika tidak, Anda hanya berharap tidak ada yang rusak.
Jika Anda memiliki alur CI/CD, Anda dapat menyebarkan kode yang dihasilkan AI dengan percaya diri. Jika tidak, Anda hanya berharap tidak ada yang rusak.
Jika Anda memiliki proses peninjauan kode yang baik, Anda dapat menangkap masalah apa pun dengan kode yang dihasilkan AI. Jika tidak, Anda hanya berharap tidak ada yang rusak.
Jika Anda memiliki dokumentasi yang solid, AI akan memahami basis kode Anda dan menghasilkan kode yang jauh lebih baik. Jika tidak, Anda hanya berharap tidak ada yang rusak.
Kesenjangan antara tim dengan fondasi rekayasa perangkat lunak yang kuat dan yang tidak akan menjadi sangat besar.
89
Teratas
Peringkat
Favorit
