Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Meneliti penalaran @OpenAI | AI poker manusia super Libratus/Pluribus yang dibuat bersama, CICERO Diplomacy AI, dan model penalaran OpenAI o3 / o1 / 🍓
Setelah hasil IMO musim panas lalu, beberapa orang menolaknya sebagai "matematika sekolah menengah." Kami pikir model terbaru kami akan menghilangkan keraguan bahwa penelitian STEM akan berubah secara mendasar.
Matematikawan membuat serangkaian 10 pertanyaan penelitian yang muncul secara alami dari penelitian mereka sendiri. Hanya mereka yang tahu jawabannya, dan mereka memberi dunia waktu seminggu untuk menggunakan LLM untuk mencoba menyelesaikannya. Kami pikir model terbaru kami memungkinkan untuk memecahkan beberapa di antaranya.
Ini adalah model internal untuk saat ini, tetapi saya optimis kita akan segera mengeluarkannya (atau model yang lebih baik).


74
Saya menghargai kejujuran @Anthropic dalam kartu sistem terbaru mereka, tetapi isinya tidak memberi saya keyakinan bahwa perusahaan akan bertindak secara bertanggung jawab dengan penerapan model AI canggih:
-Mereka terutama mengandalkan survei internal untuk menentukan apakah Opus 4.6 melewati ambang batas R&D-4 AI otonom mereka (dan dengan demikian akan memerlukan perlindungan yang lebih kuat untuk dirilis di bawah Kebijakan Penskalaan yang Bertanggung Jawab mereka). Ini bahkan bukan survei eksternal dari pihak ke-3 yang tidak memihak, melainkan survei karyawan Anthropic.
-Ketika responden survei internal 5/16 awalnya memberikan penilaian yang menyarankan perlindungan yang lebih kuat mungkin diperlukan untuk rilis model, Anthropic menindaklanjuti dengan karyawan tersebut secara khusus dan meminta mereka untuk "mengklarifikasi pandangan mereka." Mereka tidak menyebutkan tindak lanjut serupa untuk responden 11/16 lainnya. Tidak ada diskusi dalam kartu sistem tentang bagaimana hal ini dapat menciptakan bias dalam hasil survei.
-Alasan mereka mengandalkan survei adalah karena eval R&D AI mereka yang ada jenuh. Beberapa orang mungkin berpendapat bahwa kemajuan AI telah begitu cepat sehingga dapat dimengerti bahwa mereka belum memiliki evaluasi kuantitatif yang lebih canggih, tetapi kita dapat dan harus menahan laboratorium AI ke standar yang tinggi. Selain itu, laboratorium lain memang memiliki eval R&D AI canggih yang tidak jenuh. Misalnya, OpenAI memiliki tolok ukur OPQA yang mengukur kemampuan model AI untuk memecahkan masalah internal nyata yang dihadapi tim riset OpenAI dan yang membutuhkan waktu lebih dari satu hari untuk dipecahkan oleh tim.
Saya tidak berpikir Opus 4.6 sebenarnya berada di level peneliti AI tingkat pemula jarak jauh, dan saya tidak berpikir itu berbahaya untuk dirilis. Tetapi inti dari Kebijakan Penskalaan yang Bertanggung Jawab adalah untuk membangun otot kelembagaan dan kebiasaan baik sebelum hal-hal menjadi serius. Survei internal, terutama karena Anthropic telah mengelolanya, bukanlah pengganti yang bertanggung jawab untuk evaluasi kuantitatif.

370
Teratas
Peringkat
Favorit

