Kami memiliki masalah mendasar dengan cara kami mengevaluasi AI untuk sains. Tolok ukur saat ini menguji kemampuan terisolasi - Bisakah AI menganalisis data? Menghasilkan hipotesis? Eksperimen desain? Tapi bukan itu cara kerja 🧵 penelitian nyata
Kami baru saja menerbitkan pracetak yang mengusulkan cara baru untuk mengevaluasi Ilmuwan AI sebagai co-pilot penelitian daripada pelaksana tugas yang terisolasi. Pembelajaran ini memandu pembangunan kembali BioAgents kami menjadi agen ilmiah terbaik di dunia. Baca makalah tentang @arxiv:
Masalah utama yang ingin kami pecahkan: AI saat ini untuk tolok ukur sains gagal menangkap alur kerja aktual peneliti biomedis. Contoh: seorang postdoc menganalisis data genetik Senin, menyempurnakan hipotesis pada hari Selasa, mengadaptasi protokol Kamis berdasarkan anggaran yang direvisi, kemudian mengintegrasikan semuanya ke dalam proposal minggu depan. Tolok ukur saat ini diuji secara terpisah: * Kualitas analisis data ✓ * Validitas hipotesis ✓ * Desain protokol ✓ Tetapi tidak ada yang menilai apakah AI mengingat hipotesis hari Selasa ketika merancang eksperimen hari Kamis, atau apakah kendala anggaran hari Kamis dibawa ke proposal hari Senin.
Di 3.200+ makalah yang disaring, ulasan kami mengidentifikasi 5 dimensi evaluasi: * Metrik kinerja tradisional * Penalaran multi-langkah & perencanaan eksperimental * Keamanan & deteksi kesalahan * Sintesis pengetahuan * Alur kerja yang ditambah alat Apa yang berulang kali kami temukan hilang: bagaimana dimensi ini bekerja dalam kombinasi selama siklus R&D nyata dan desain eksperimental. AI dapat menguasai setiap tolok ukur - dan masih berjuang sebagai mitra penelitian. @ilyasut mengangkat poin serupa baru-baru ini di podcast @dwarkesh_sp, mengamati bagaimana model AI saat ini gagal menggeneralisasi untuk tugas yang lebih rumit sebagai agen pengkodean:
Pola kegagalan ini tidak hanya teoritis. Recursion Pharmaceuticals menjalankan 2,2 juta eksperimen yang dipandu AI setiap minggu, dan pasar otomatisasi laboratorium tumbuh 7–8% setiap tahun. Mengusir AI dalam penelitian berisiko tinggi menuntut pemeriksaan ketat untuk validitas ilmiah, reproduktifitas, dan keamanan.
Kami mengusulkan perluasan dari tolok ukur kemampuan murni untuk juga menyertakan tolok ukur alur kerja. Empat dimensi jauh lebih penting daripada skor tugas tunggal: 1. Kualitas Dialog - Apakah mengajukan pertanyaan klarifikasi sebelum berkomitmen? 2. Orkestrasi Alur Kerja - Apakah tahap selanjutnya mencerminkan kendala sebelumnya? 3. Kesinambungan Sesi - Apakah mengingat konteks sepanjang hari? 4. Pengalaman Peneliti - Apakah itu mengkalibrasi kepercayaan dengan tepat?
Tolok ukur alur kerja bertujuan untuk menguji stres AI seperti yang dilakukan sains nyata. Dengan data yang tidak lengkap, anggaran yang berubah, hasil yang bertentangan, umpan balik PI & kegagalan yang tidak terduga. Apakah AI beradaptasi, atau runtuh menjadi kekakuan dan halusinasi? Hanya yang pertama adalah mitra penelitian sejati.
Intinya: Sistem yang mendapat skor tinggi pada tugas-tugas terisolasi mungkin gagal sebagai co-pilot penelitian. Saatnya memperluas tolok ukur agar sesuai dengan cara para ilmuwan benar-benar bekerja: berulang, percakapan, sadar kendala, mencakup beberapa sesi. Masa depan AI untuk Sains bergantung padanya.
7,65K