𝗖𝗵𝗼𝗻𝗴 𝗮𝗻𝗱 𝗻𝗵𝗮𝗻 𝗱𝗲𝘁𝗲𝗰𝘁𝗶𝗼𝗻 𝗰𝗵𝗼 𝗿𝗼𝗯𝗼𝘁𝗶𝗰𝘀 Trong lĩnh vực robotics, việc phát hiện đối tượng là một bức ảnh tạm thời: "có một chai ở (x, y) trong khung hình này." Theo dõi đối tượng là điều khó khăn hơn, mang tính vận hành: "đây là cùng một chai như trước, nó đã di chuyển như thế này, và nó vẫn ở đó ngay cả khi tôi không nhìn thấy nó trong 200 ms." Hãy tưởng tượng một robot di động tại một quầy bếp. Nhiệm vụ rất đơn giản trên giấy: lấy chai màu xanh từ một bàn lộn xộn trong khi một người di chuyển gần đó. Robot có một camera (có thể có cả camera chiều sâu). Nó chạy một bộ phát hiện đối tượng và nhận được một hộp giới hạn được gán nhãn "chai" với một điểm số độ tin cậy. Nghe có vẻ như là nhận thức. Nhưng chưa phải vậy. Trong khung hình 1, bộ phát hiện nhìn thấy chai. Trong khung hình 2, cánh tay của người đó một phần che khuất nó, độ tin cậy giảm, và hộp biến mất. Trong khung hình 3, chai xuất hiện trở lại nhưng bộ phát hiện hơi dịch chuyển hộp. Từ góc nhìn của người lập kế hoạch, chai đã biến mất và dịch chuyển. Trong sự lộn xộn, bạn cũng sẽ gặp phải các bản sao: bộ phát hiện có thể tạo ra hai hộp "chai" khả thi cho cùng một đối tượng. Nếu robot phản ứng trực tiếp với các phát hiện theo từng khung hình, bạn sẽ thấy những hành vi thất bại cổ điển: ➤ nó do dự vì mục tiêu "mất" mỗi vài khung hình, ➤ nó lập kế hoạch lại liên tục vì vị trí mục tiêu dao động, ➤ nó với tới đối tượng sai khi hai vật tương tự xuất hiện, ➤ nó không thể thực thi đáng tin cậy "không va chạm với người" vì hộp của người đó cũng nhấp nháy. Đó là lý do tại sao nhận thức trong robotics hiếm khi dừng lại ở việc phát hiện. Nó cần sự tồn tại của đối tượng: khả năng nói "đây vẫn là cùng một chai, ngay cả khi tôi mất tầm nhìn về nó trong một thời gian ngắn." Theo dõi là điều biến những dự đoán theo từng khung hình thành một mô hình thế giới ổn định. Một cách tiếp cận điển hình là "theo dõi bằng phát hiện": bạn vẫn chạy một bộ phát hiện mỗi khung hình, nhưng bạn gắn các phát hiện vào các theo dõi liên tục (ID) theo thời gian bằng cách sử dụng dự đoán + liên kết. Cụ thể, bộ theo dõi thực hiện ba điều: ➤ Dự đoán "chai nên ở đâu bây giờ?" ➤ Liên kết "phát hiện nào thuộc về theo dõi nào?" ➤ Duy trì danh tính dưới các thay đổi ...