Saya menghargai kejujuran @Anthropic dalam kartu sistem terbaru mereka, tetapi isinya tidak memberi saya keyakinan bahwa perusahaan akan bertindak secara bertanggung jawab dengan penerapan model AI canggih: -Mereka terutama mengandalkan survei internal untuk menentukan apakah Opus 4.6 melewati ambang batas R&D-4 AI otonom mereka (dan dengan demikian akan memerlukan perlindungan yang lebih kuat untuk dirilis di bawah Kebijakan Penskalaan yang Bertanggung Jawab mereka). Ini bahkan bukan survei eksternal dari pihak ke-3 yang tidak memihak, melainkan survei karyawan Anthropic. -Ketika responden survei internal 5/16 awalnya memberikan penilaian yang menyarankan perlindungan yang lebih kuat mungkin diperlukan untuk rilis model, Anthropic menindaklanjuti dengan karyawan tersebut secara khusus dan meminta mereka untuk "mengklarifikasi pandangan mereka." Mereka tidak menyebutkan tindak lanjut serupa untuk responden 11/16 lainnya. Tidak ada diskusi dalam kartu sistem tentang bagaimana hal ini dapat menciptakan bias dalam hasil survei. -Alasan mereka mengandalkan survei adalah karena eval R&D AI mereka yang ada jenuh. Beberapa orang mungkin berpendapat bahwa kemajuan AI telah begitu cepat sehingga dapat dimengerti bahwa mereka belum memiliki evaluasi kuantitatif yang lebih canggih, tetapi kita dapat dan harus menahan laboratorium AI ke standar yang tinggi. Selain itu, laboratorium lain memang memiliki eval R&D AI canggih yang tidak jenuh. Misalnya, OpenAI memiliki tolok ukur OPQA yang mengukur kemampuan model AI untuk memecahkan masalah internal nyata yang dihadapi tim riset OpenAI dan yang membutuhkan waktu lebih dari satu hari untuk dipecahkan oleh tim. Saya tidak berpikir Opus 4.6 sebenarnya berada di level peneliti AI tingkat pemula jarak jauh, dan saya tidak berpikir itu berbahaya untuk dirilis. Tetapi inti dari Kebijakan Penskalaan yang Bertanggung Jawab adalah untuk membangun otot kelembagaan dan kebiasaan baik sebelum hal-hal menjadi serius. Survei internal, terutama karena Anthropic telah mengelolanya, bukanlah pengganti yang bertanggung jawab untuk evaluasi kuantitatif.
@Anthropic Kartu sistem ada di sini:
284