Satu poin yang saya buat yang tidak terungkap:
- Menskalakan hal saat ini akan terus mengarah pada perbaikan. Secara khusus, itu tidak akan terhenti.
- Tetapi sesuatu yang penting akan terus hilang.
here are the most important points from today's ilya sutskever podcast:
- superintelligence in 5-20 years
- current scaling will stall hard; we're back to real research
- superintelligence = super-fast continual learner, not finished oracle
- models generalize 100x worse than humans, the biggest AGI blocker
- need completely new ML paradigm (i have ideas, can't share rn)
- AI impact will hit hard, but only after economic diffusion
- breakthroughs historically needed almost no compute
- SSI has enough focused research compute to win
- current RL already eats more compute than pre-training
Penelitian Antropik Baru: Ketidaksejajaran alami yang muncul dari peretasan hadiah dalam RL produksi.
"Peretasan hadiah" adalah tempat model belajar menyontek pada tugas yang diberikan kepada mereka selama pelatihan.
Studi baru kami menemukan bahwa konsekuensi dari peretasan hadiah, jika tidak dapat dikurangi, bisa sangat serius.