Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Saat Anda membuat agen AI, jangan memperlakukan perintah seperti string konfigurasi.
Perlakukan mereka seperti logika bisnis yang dapat dieksekusi. Karena itulah mereka sebenarnya.
Blog @arshdilbagi dan kuliah Stanford CS 224G ini menjabarkan salah satu model mental paling jelas yang pernah saya lihat untuk evaluasi LLM.
Berhenti memperlakukan eval seperti tes unit.
Itu berfungsi untuk perangkat lunak deterministik.
Untuk produk LLM, ini menciptakan kepercayaan palsu karena penggunaan dunia nyata berubah seiring waktu.
Contoh: prompt asuransi melewati 20 kasus evaluasi. Tim mengirim. Dalam produksi, kelas permintaan baru muncul dan gagal diam-diam. Tidak ada crash, tidak ada peringatan, hanya jawaban yang salah dalam skala besar.
Perbaikannya bukanlah "menulis lebih banyak kasus evaluasi", yang dilakukan banyak tim.
Ini membangun evals sebagai lingkaran umpan balik yang hidup. Mulailah dengan satu set kecil, kirimkan, perhatikan apa yang rusak dalam produksi, tambahkan kembali kegagalan tersebut, dan jalankan kembali pada setiap prompt atau perubahan model.
Kegagalan eval apa yang membuat tim Anda lengah?
Blog:
Kuliah Stanford CS 224G:

Teratas
Peringkat
Favorit
