DApp Store | Pusat Web3 untuk Event & Game

Topik trending

zerokn0wledge.hl 🪬✨

terminal online + onchain | Co-founder @a1research__ dan @steak_studio | Kepala Aset Digital di Aurum Advice | pengkodean getaran DeAI maxi + hyperliquid ultra

Pelacakan dan deteksi objek untuk robotika Dalam robotika, deteksi objek adalah snapshot: "ada botol di (x, y) dalam bingkai ini." Pelacakan objek adalah hal yang lebih sulit dan lebih operasional: "ini adalah botol yang sama seperti sebelumnya, bergerak seperti ini, dan masih ada bahkan jika saya tidak melihatnya selama 200 ms." Bayangkan manipulator seluler di meja dapur. Tugasnya sederhana di atas kertas: mengambil botol biru dari meja yang berantakan sementara seseorang bergerak di dekatnya. Robot ini memiliki kamera (mungkin kedalaman juga). Ini menjalankan detektor objek dan mendapatkan kotak pembatas berlabel "botol" dengan skor keyakinan. Itu terdengar seperti persepsi. Itu belum. Pada bingkai 1 detektor melihat botol. Pada bingkai 2 lengan orang tersebut menutupinya sebagian, kepercayaan diri menurun, dan kotak itu menghilang. Pada bingkai 3 botol muncul kembali tetapi detektor sedikit menggeser kotak. Dari sudut pandang perencana, botol itu berkedip keluar dan berteleportasi. Dalam kekacauan, Anda juga mendapatkan duplikat: detektor mungkin menghasilkan dua kotak "botol" yang masuk akal untuk objek yang sama. Jika robot bereaksi langsung terhadap deteksi per bingkai, Anda melihat perilaku kegagalan klasik: ➤ ragu-ragu karena target "hilang" setiap beberapa frame, ➤ itu merencanakan ulang terus-menerus karena posisi target gelisah, ➤ menjangkau objek yang salah ketika dua item serupa muncul, ➤ Itu tidak dapat dengan andal menegakkan "jangan bertabrakan dengan orang tersebut" karena kotak orang tersebut juga berkedip. Inilah sebabnya mengapa persepsi robotika jarang berhenti pada deteksi. Itu membutuhkan keabadian objek: kemampuan untuk mengatakan "ini masih botol yang sama, bahkan jika saya melupakannya sebentar." Pelacakan adalah apa yang mengubah tebakan bingkai demi bingkai menjadi model dunia yang stabil. Pendekatan yang umum adalah "pelacakan berdasarkan deteksi": Anda masih menjalankan detektor setiap frame, tetapi Anda melampirkan deteksi ke track persisten (ID) dari waktu ke waktu menggunakan prediksi + asosiasi. Secara konkret, pelacak melakukan tiga hal: ➤ Memprediksi "di mana seharusnya botolnya sekarang?" ➤ Kaitkan "deteksi mana yang termasuk dalam trek mana?" ➤ Pertahankan identitas di bawah perubahan Kembali ke adegan meja kami: setelah Anda melacak, botol berhenti berkedip. Ini memiliki ID yang stabil, perkiraan posisi yang dihaluskan, dan seringkali perkiraan kecepatan. Sekarang perencana dapat berperilaku seperti orang dewasa: ia dapat menunggu perubahan lingkungan yang singkat, berkomitmen pada satu target, dan merencanakan lintasan yang aman di sekitar orang yang bergerak. Bahkan dengan pelacakan, robot masih tidak tahu apa yang dilakukannya dalam hal manusia. Ini memiliki "Track #7" dengan kotak pembatas dan mungkin label kelas "botol." Itu tidak cukup untuk tugas nyata karena tugas nyata adalah tentang hubungan dan niat: ➤ "Pilih botol biru (bukan yang bening)." ➤ "Jangan menjangkau orang itu." ➤ "Botolnya ada di belakang cangkir." ➤ "Jika orang tersebut meraihnya, berhentilah." Di sinilah LLM (sering dipasangkan dengan VLM) dapat membantu dengan bernalar atas representasi terstruktur dari adegan yang dibangun dari trek. Kuncinya adalah LLM harus beroperasi dalam keadaan stabil. Jika Anda memberinya deteksi per bingkai mentah, Anda akan mendapatkan penalaran rendah karena inputnya berkedip. Pelacakan membuat lapisan semantik koheren.

Teratas

Peringkat

Favorit