Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bisakah kita menggunakan transkrip agen untuk memahami kemampuan🤔 agen? Ternyata, mungkin transkrip agen pengkodean dapat membatasi peningkatan produktivitas kita dari AI.
Lebih lanjut tentang penelitian terbaru saya @METR_Evals di 🧵

Faktor penghematan waktu = (waktu tanpa AI) / (waktu dengan AI) pada tugas yang terkandung dalam transkrip
Saya memperkirakan waktu tanpa AI dengan hakim LLM, dan menghitung waktu dengan AI dengan melihat apakah ada pesan yang diketik manusia di setiap jendela 10 menit, lalu menjumlahkan semua jendela aktif.
Namun, ini melebih-lebihkan peningkatan produktivitas sejati dalam banyak hal! !️
1. Orang-orang menggunakan AI pada tugas-tugas bernilai rendah yang tidak akan mereka lakukan. Kami menyebutnya tugas Cadillac
2. Kami melakukan banyak tugas tanpa AI, dan menggunakan AI hanya pada tugas yang mereka harapkan dapat membantu

22 Jan 2026
Cadillac tasks: I believe many estimates of LLM productivity boosts are over-estimates because people are using them for cadillac tasks: things that would take you a long time unaided, but have only marginal additional value.
3. Hakim LLM cenderung melebih-lebihkan berapa lama waktu yang dibutuhkan seseorang untuk melakukan tugas yang sama tanpa AI karena a) spesialisasi pekerja, b) kemampuan terbatas untuk mendeteksi tugas yang gagal, c) overhead yang disebabkan oleh agen, dan d) kemajuan yang dibatalkan antara transkrip, dll
Menariknya, saya juga menemukan faktor penghematan waktu berkorelasi dengan jumlah agen yang bekerja dengan orang secara paralel. Ini menunjukkan peningkatan dan studi transkrip di masa depan harus memperhitungkan konkurensi agen dengan benar.

472
Teratas
Peringkat
Favorit
