Makalah favorit saya tahun ini: "Model video adalah pembelajar dan penalaran tanpa tembakan" Ini menggambarkan bahwa model video menunjukkan penalaran visual yang muncul dalam skala besar - mereka dapat memecahkan tugas penglihatan yang tidak mereka latih. Ini mungkin "momen GPT" untuk penglihatan. Mari kita uraikan 👇
Untuk memulai - mengapa percaya bahwa model video dapat mengembangkan penalaran visual? Hal serupa terjadi dalam teks. Kami dulu melatih model khusus untuk setiap tugas - tetapi sekarang, LLM memiliki pemahaman bahasa umum dan dapat menangani banyak tugas yang tidak dilatih secara eksplisit. Model video dapat melakukan hal yang sama dalam skala besar.
Makalah ini mengukur 18k+ video yang dihasilkan oleh Veo 3 di seluruh tugas kualitatif dan kuantitatif. Ditemukan bahwa Veo dapat memahami, memodifikasi, dan memanipulasi dunia visual (mulai dari petunjuk gambar + teks) - menampilkan keterampilan penalaran awal yang tidak dilatih secara eksplisit. Kami akan menangani setiap kategori satu per satu.
👀 Persepsi - saat diminta, Veo dapat mendeteksi tepi dan mengidentifikasi objek yang berbeda dalam suatu adegan. Ini berarti dapat berfungsi sebagai model segmentasi meskipun tidak dilatih pada tugas itu, yang memiliki beberapa implikasi hilir yang menarik. 1) "Tambahkan titik biru cerah di ujung cabang tempat macaw duduk. Mata macaw berubah menjadi merah cerah. Segala sesuatu yang lain berubah menjadi gelap gulita." 2) "Bola biru langsung mulai bersinar. Perspektif kamera statis."
🌐 Pemodelan - Veo dapat memodelkan dunia (dan prinsip-prinsip yang mengaturnya) berdasarkan persepsi ini. Ini menunjukkan pemahaman fisika yang kuat - hal-hal seperti hambatan udara dan daya apung, fenomena optik seperti pembiasan dan pantulan, dan pencampuran warna. 1) "Tangan melepaskan objek" 2) "Bola logam semir cermin raksasa berguling melalui ruangan"
🤏 Manipulasi - Veo dapat memanipulasi dunia visual berdasarkan persepsi dan pemodelan ini. Ini memungkinkan tugas pengeditan gambar tanpa bidikan - pikirkan hal-hal seperti pengomposisian adegan, penghapusan latar belakang, transfer gaya, atau bahkan manipulasi yang cekatan. 1) "Gunakan akal sehat dan minta dua tangan robot yang melekat pada lengan membuka toples, seperti yang dilakukan manusia." 2) "Ubah selfie ini menjadi headshot profesional untuk LinkedIn."
🤔 Penalaran visual - semua keterampilan di atas menghasilkan penalaran. Hal ini diukur dengan memberikan model tantangan berbasis visi yang membutuhkan penalaran langkah demi langkah. Pikirkan membuat analogi, memecahkan labirin atau teka-teki, menggunakan alat, atau melintasi grafik. 1) "Tanpa melewati batas hitam apa pun, tikus abu-abu dari sudut dengan terampil menavigasi labirin dengan berjalan sampai menemukan keju kuning." 2) "Ubah kisi kanan bawah untuk mematuhi aturan yang ditetapkan oleh kisi lain. Anda dapat mengisi sel, menghapus sel, atau mengubah warna sel."
Inilah kabar baiknya: penalaran visual semakin baik dari waktu ke waktu. Performa pada banyak tugas ini meningkat secara signifikan antara Veo 2 dan Veo 3. Saya menyertakan beberapa contoh di bawah ini. TL; DR - "Jika Anda menunggu fisika yang akurat dalam model video, tetap mengantri" 😂
238