Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Setiap kali saya melihat skor tolok ukur "canggih" baru, saya mencoba eksperimen pemikiran sederhana. Jika AI adalah uang, maka setiap poin akurasi pada MMLU adalah keputusan gaji, batas kredit, perdagangan, bendera klinis. Tolok ukur saat ini memperlakukan model seperti siswa di minggu ujian. MMLU pada 88%, HumanEval pada persentase berapa pun, tingkat kemenangan arena tetapi hampir tidak ada yang mengajukan pertanyaan yang penting ketika model benar-benar melakukan pekerjaan berbayar. Apakah otak yang tepat ini, dalam keadaan yang tepat ini, menghasilkan jawaban ini dengan benar?
Kita sudah tahu apa yang terjadi ketika Anda mengabaikan lapisan itu. Selama kekurangan chip 2021–2022, model rantai pasokan yang telah "cukup baik" selama bertahun-tahun hanyut dari tebing. Mereka terus merekomendasikan rencana yang tidak masuk akal secara ekonomi karena dunia telah berubah di bawah mereka dan tidak ada yang menyadarinya dengan cukup cepat. Baru-baru ini, pengguna Claude menemukan output yang menurun selama berminggu-minggu sebelum Anthropic mengakui bahwa tiga bug infrastruktur terpisah diam-diam merusak respons. Banyak kasus seperti itu yang dengan mudah (hampir terlalu nyaman) tidak dibicarakan.
Di Ambient kami mulai memperlakukan ini sebagai sesuatu yang dapat Anda ukur. Eksperimen Matematika Sekolah Dasar kami sendiri mengambil aritmatika sederhana dan menunjukkan seberapa sering model perbatasan terhuyung-huyung pada tugas yang harus mereka perlakukan sebagai taruhan meja. Setelah Anda melihat bahwa beberapa slide "pendapatan AI" terlihat tidak lengkap tanpa slide saudara kandung: satu untuk inferensi terverifikasi (yang saya definisikan secara sederhana sebagai kemampuan untuk membuktikan model mana yang menjawab pembobot mana pada saat itu). Jika AI akan duduk di tengah-tengah penggajian, risiko, dan operasi, tolok ukur harus tumbuh dan akurasi adalah tiket masuk. Perilaku yang dapat diverifikasi di bawah insentif ekonomi adalah ujian yang sebenarnya.

Teratas
Peringkat
Favorit

