Penelitian baru dari Meta dan kolaborator. Ini adalah makalah yang bagus yang menunjukkan apa yang mungkin dilakukan dengan model dunia yang tepat. Model dunia membutuhkan tindakan untuk memprediksi konsekuensi. Pendekatan default saat ini membutuhkan data tindakan berlabel, yang mahal untuk diperoleh dan terbatas pada domain sempit seperti video game atau manipulasi robot. Tetapi sebagian besar data video online tidak memiliki label tindakan sama sekali. Penelitian baru ini menangani pembelajaran model dunia aksi laten langsung dari video di alam liar, memperluas melampaui pengaturan terkontrol dari pekerjaan sebelumnya untuk menangkap keragaman penuh tindakan dunia nyata. Tantangannya signifikan. Video di alam liar berisi tindakan yang jauh melampaui navigasi atau manipulasi sederhana: orang memasuki bingkai, objek muncul dan menghilang, penari bergerak, jari-jari membentuk akord gitar. Juga tidak ada perwujudan yang konsisten di seluruh video, tidak seperti kumpulan data robotika, di mana lengan yang sama muncul di seluruhnya. Jadi bagaimana penulis mengatasi hal ini? Tindakan laten yang berkelanjutan tetapi terbatas, menggunakan regularisasi yang jarang atau berisik, secara efektif menangkap kompleksitas tindakan ini. Kuantisasi diskrit, pendekatan umum dalam pekerjaan sebelumnya, berjuang untuk beradaptasi. Tanpa perwujudan bersama, model mempelajari transformasi relatif kamera yang dilokalkan secara spasial. Hasilnya menunjukkan transfer tindakan yang asli. Gerakan dari orang yang berjalan dapat diterapkan pada bola terbang. Tindakan seperti "seseorang memasuki bingkai" mentransfer ke video yang sama sekali berbeda. Dengan melatih pengontrol kecil untuk memetakan tindakan yang diketahui ke tindakan laten, model dunia yang dilatih murni pada video alami dapat memecahkan manipulasi robot dan tugas navigasi dengan kinerja yang mendekati model yang dilatih pada data berlabel tindakan khusus domain. Ruang tindakan laten yang dipelajari dari video internet tanpa label dapat berfungsi sebagai antarmuka universal untuk perencanaan, menghilangkan kemacetan anotasi tindakan. Kertas: Pelajari cara membangun agen AI yang efektif di akademi kami: