Ternyata AI sudah bisa melakukan 65% tugas profesional... Nvidia memiliki 38 PhD dan MBA yang masing-masing menghabiskan 10+ jam untuk membuat tolok ukur. Mereka menguji 40+ model pada pekerjaan aktual. Bukan latihan akademis. Pekerjaan nyata yang dilakukan analis dan peneliti junior setiap hari. GPT-5 mencetak 65,9% secara keseluruhan. Mereka mengekstrak fakta dengan akurasi 64,4%. Perlu mengidentifikasi RTX sebagai kontraktor DoD terbesar? Menemukan bahwa IFFIm mengumpulkan $3,5 miliar melalui obligasi vaksin? Model sebagian besar menarik informasi spesifik dari dokumen, bahkan ketika terkubur dalam lusinan halaman. Penalaran logis mencapai 66,2%. Mereka dapat mengikuti derivasi multi-langkah, menerapkan rumus dengan benar, memvalidasi rantai kausal. Ketika Anda memerlukan analisis sistematis mengikuti kerangka kerja yang ditetapkan, model memberikan dua dari tiga kali. Pemenang kejutan: kerangka kerja konsultasi dengan akurasi 80%. Model berhasil menyusun analisis masuk pasar, penilaian kompetitif, dan rekomendasi strategis. Mereka memahami Porter's Five Forces tidak hanya mencantumkan pesaing tetapi menganalisis dinamika daya tawar. Masalah kimia? Tingkat keberhasilan 70,6%. Model menangani mekanisme reaksi, jalur sintesis, dan perhitungan kesetimbangan yang akan menantang sebagian besar non-spesialis. Mereka menghitung molaritas, memprediksi produk, menyeimbangkan persamaan pada tingkat yang lulus kursus pascasarjana. Bahkan di bidang keuangan, di mana model lebih lemah pada 63,7%, mereka berhasil menyelesaikan sebagian besar model penilaian, menafsirkan struktur sekuritisasi, dan menulis memo investasi yang koheren. Itu hampir dua pertiga dari analisis keuangan tingkat MBA yang ditangani dengan benar. ProfBench mengungkapkan hal ini dengan menguji di empat domain profesional dengan 7.347 kriteria yang ditulis oleh ahli. Tidak seperti tolok ukur sempit yang terbatas pada bidang tunggal, ini menangkap luasnya pekerjaan pengetahuan. Dan dengan $12 per evaluasi (vs $8000 untuk PaperBench), setiap peneliti dapat mengukur kemampuan nyata. Tentu, model berjuang dengan pemformatan profesional (65,3%), derivasi fisika (49,3%), dan belum dapat menyisir 1.000 halaman. tetapi kami telah melewati ambang batas di mana AI menangani sebagian besar tugas profesional dengan benar. Tidak sempurna. Tidak sepenuhnya. Tetapi 65% sudah cukup untuk mengubah secara mendasar bagaimana pekerjaan pengetahuan terjadi.