Apa itu $CODEC Robotika, Operator, Game? Semua hal di atas dan banyak lagi. Vision-language-action (VLA) Codec adalah model agnostik kerangka kerja, memungkinkan lusinan kasus penggunaan karena kemampuannya yang unik untuk memvisualisasikan kesalahan dibandingkan dengan LLM. Selama 12 bulan terakhir, kami telah melihat bahwa LLM berfungsi terutama sebagai mekanisme perulangan, didorong oleh data dan pola respons yang telah ditentukan sebelumnya. Karena dibangun di atas ucapan dan teks, LLM memiliki kemampuan terbatas untuk berkembang melampaui jendela konteks linguistik yang mereka latih. Mereka tidak dapat menafsirkan masukan sensorik, seperti ekspresi wajah atau isyarat emosional waktu nyata, karena penalaran mereka terikat pada bahasa, bukan persepsi. Sebagian besar agen saat ini menggabungkan LLM berbasis transformator dengan encoder visual. Mereka "melihat" antarmuka melalui tangkapan layar, menafsirkan apa yang ada di layar, dan menghasilkan urutan tindakan, klik, penekanan tombol, gulir untuk mengikuti instruksi dan menyelesaikan tugas. Inilah sebabnya mengapa AI belum menggantikan kategori pekerjaan yang besar: LLM melihat tangkapan layar, bukan piksel. Mereka tidak memahami semantik visual lingkungan yang dinamis, hanya apa yang dapat dibaca melalui bingkai statis. Alur kerja khas mereka berulang: tangkap tangkapan layar, alasan tentang tindakan berikutnya, jalankan, lalu tangkap bingkai lain dan ulangi. Perulangan persepsi-berpikir ini berlanjut sampai tugas selesai atau agen gagal. Untuk benar-benar menggeneralisasi, AI harus memahami lingkungannya, bernalar tentang keadaannya, dan bertindak dengan tepat untuk mencapai tujuan, bukan hanya menafsirkan snapshot. Kami sudah memiliki makro, bot RPA, dan skrip otomatisasi, tetapi lemah dan tidak stabil. Sedikit pergeseran piksel atau perubahan tata letak memutus alur dan memerlukan patching manual. Mereka tidak dapat beradaptasi ketika sesuatu berubah dalam alur kerja. Itulah hambatannya. Penglihatan-Bahasa-Aksi (VLA) Agen VLA Codec berjalan pada loop yang intuitif namun kuat: memahami, berpikir, bertindak. Alih-alih hanya memuntahkan teks seperti kebanyakan LLM, agen-agen ini melihat lingkungannya, memutuskan apa yang harus dilakukan dan kemudian mengeksekusi. Semuanya dikemas ke dalam satu alur terpadu, yang dapat Anda lihat menjadi tiga lapisan inti: Penglihatan Agen pertama-tama merasakan lingkungannya melalui penglihatan. Untuk agen Operator desktop, ini berarti mengambil screenshot atau input visual dari status saat ini (misalnya jendela aplikasi atau kotak teks). Komponen visi model VLA menafsirkan input ini, membaca teks di layar dan mengenali elemen atau objek antarmuka. Alias mata agen. Bahasa Kemudian muncul pemikiran. Mengingat konteks visual (dan instruksi atau tujuan apa pun), model menganalisis tindakan apa yang diperlukan. Pada dasarnya, AI "berpikir" tentang respons yang tepat seperti yang dilakukan seseorang. Arsitektur VLA menggabungkan visi dan bahasa secara internal, sehingga agen dapat, misalnya, memahami bahwa dialog pop up mengajukan pertanyaan ya/tidak. Kemudian akan memutuskan tindakan yang benar (misalnya klik "OK") berdasarkan tujuan atau perintah. Berfungsi sebagai otak agen, memetakan masukan yang dirasakan untuk suatu tindakan. Perbuatan Akhirnya, agen bertindak dengan mengeluarkan perintah kontrol ke lingkungan. Alih-alih teks, model VLA menghasilkan tindakan (seperti klik mouse, penekanan tombol, atau panggilan API) yang berinteraksi langsung dengan sistem. Dalam contoh dialog, agen akan mengeksekusi klik pada tombol "OK". Ini menutup lingkaran: setelah bertindak, agen dapat memeriksa hasilnya secara visual dan melanjutkan siklus persepsi-pikir-tindakan. Tindakan adalah pemisah kunci yang mengubahnya dari kotak obrolan menjadi operator aktual. Kasus Penggunaan Seperti yang saya sebutkan, karena arsitekturnya, Codec adalah agnostik naratif. Sama seperti LLM tidak dibatasi oleh output tekstual apa yang dapat mereka hasilkan, VLA tidak dibatasi oleh tugas apa yang dapat mereka selesaikan. Robotika Alih-alih mengandalkan skrip lama atau otomatisasi yang tidak sempurna, agen VLA mengambil input visual (umpan kamera atau sensor), meneruskannya melalui model bahasa untuk perencanaan, lalu mengeluarkan perintah kontrol aktual untuk bergerak atau berinteraksi dengan dunia. Pada dasarnya robot melihat apa yang ada di depannya, memproses instruksi seperti "pindahkan kaleng Pepsi di sebelah jeruk", mencari tahu di mana semuanya berada, bagaimana bergerak tanpa menjatuhkan apa pun, dan melakukannya tanpa memerlukan hardcoding. Ini adalah kelas sistem yang sama dengan RT-2 atau PaLM-E Google. Model besar yang menggabungkan visi dan bahasa untuk menciptakan tindakan dunia nyata. Pekerjaan VLA CogAct adalah contoh yang baik, robot memindai meja yang berantakan, mendapatkan prompt alami, dan menjalankan loop penuh: ID objek, perencanaan jalur, eksekusi gerakan. Operator Di lingkungan desktop dan web, agen VLA pada dasarnya berfungsi seperti pekerja digital. Mereka "melihat" layar melalui tangkapan layar atau umpan langsung, menjalankannya melalui lapisan penalaran yang dibangun di atas model bahasa untuk memahami UI dan prompt tugas, lalu menjalankan tindakan dengan kontrol mouse dan keyboard nyata, seperti yang dilakukan manusia. Putaran penuh, merasakan, berpikir, bertindak berjalan terus menerus. Jadi agen tidak hanya bereaksi sekali, tetapi secara aktif menavigasi antarmuka, menangani beberapa alur langkah tanpa memerlukan skrip kode keras. Arsitekturnya adalah campuran dari visi gaya OCR untuk membaca teks/tombol/ikon, penalaran semantik untuk memutuskan apa yang harus dilakukan, dan lapisan kontrol yang dapat mengklik, menggulir, mengetik, dll. Di mana ini menjadi sangat menarik adalah dalam penanganan kesalahan. Agen ini dapat merefleksikan tindakan setelah dan merencanakan ulang jika ada sesuatu yang tidak berjalan seperti yang diharapkan. Tidak seperti skrip RPA yang rusak jika UI sedikit berubah, seperti tombol yang berpindah posisi atau label yang diganti namanya, agen VLA dapat beradaptasi dengan tata letak baru menggunakan isyarat visual dan pemahaman bahasa. Membuatnya jauh lebih tangguh untuk otomatisasi dunia nyata di mana antarmuka terus berubah. Sesuatu yang secara pribadi saya perjuangkan saat mengkodekan bot penelitian saya sendiri melalui alat seperti penulis drama. Game Game adalah salah satu kasus penggunaan paling jelas di mana agen VLA dapat bersinar, anggap mereka kurang seperti bot dan lebih seperti pemain AI yang imersif. Seluruh alurnya sama, agen melihat layar game (bingkai, menu, perintah teks), alasan tentang apa yang seharusnya dilakukannya, lalu dimainkan menggunakan input mouse, keyboard, atau pengontrol. Ini tidak berfokus pada kekerasan, ini adalah AI yang belajar cara bermain game seperti manusia. Persepsi + berpikir + kontrol, semuanya terikat bersama. Proyek SIMA DeepMind telah membuka ini dengan menggabungkan model bahasa visi dengan lapisan prediktif dan menjatuhkannya ke dalam game seperti No Man's Sky dan Minecraft. Dari hanya menonton layar dan mengikuti instruksi, agen dapat menyelesaikan tugas abstrak seperti "membuat api unggun" dengan menyatukan langkah-langkah yang tepat, mengumpulkan kayu, menemukan korek api, dan menggunakan inventaris. Dan itu juga tidak terbatas hanya pada satu pertandingan. Ini mentransfer pengetahuan itu antara lingkungan yang berbeda. Agen game VLA tidak terkunci dalam satu set aturan. Agen yang sama dapat beradaptasi dengan mekanisme yang sama sekali berbeda, hanya dari visi dan landasan bahasa. Dan karena dibangun di atas infrastruktur LLM, ia dapat menjelaskan apa yang dilakukannya, mengikuti instruksi bahasa alami di tengah permainan, atau berkolaborasi dengan pemain secara real time. Kami tidak jauh dari memiliki rekan tim AI yang beradaptasi dengan gaya bermain dan personalisasi Anda, semua berkat Codec.
9,21K