ロボット工学における追跡および物体検出 ロボティクスにおいて、物体検出とはスナップショットのことです。すなわち、「このフレームの(x, y)に瓶がある」ということです。 オブジェクトトラッキングはより難しく、操作的なものです。「これは以前と同じボトルで、こう動いていて、200ミリ秒見えなくてもまだそこにある」という感じです。 キッチンのカウンターに移動式マニピュレーターを想像してください。紙の上では簡単な作業です:近くで人が動いている間に散らかったテーブルから青い瓶を取るだけです。 ロボットにはカメラ(おそらく奥行きも)が付いています。オブジェクト検出器を実行し、「ボトル」とラベル付けされたバウンディングボックスと信頼度スコアを取得します。それは認識の問題のように聞こえます。まだそうではありません。 フレーム1で検出器はボトルを検出します。2フレーム目で、その人の腕が部分的にそれを覆い、自信が下がり、ボックスが消えます。フレーム3でボトルが再び現れますが、検知器が箱をわずかにずらします。プランナーの視点では、瓶は消えてテレポートした。 雑多なものでは重複も起こります。検出器は同じ物体に対して2つのもっともらしい「ボトル」ボックスを生成することがあります。ロボットがフレームごとの検出に直接反応した場合、典型的な故障挙動が見られます: † ターゲットが数フレームごとに「欠けている」ためためらう、 † ターゲット位置が揺れるため、常に再計画されます。 † 似た物体が二つ現れた場合、間違った物体に手を伸ばす † 「人に衝突しないように」を確実に強制できません。なぜなら、その人のボックスもちらつくからです。 だからこそ、ロボットの知覚は検出だけで止まることはほとんどありません。それはオブジェクトの永続性を必要とします。つまり、「たとえ一瞬見失っても、これは同じボトルだ」と言える能力です。 トラッキングこそがフレームごとの推測を安定した世界モデルに変えるものです。 典型的な方法は「検出によるトラッキング」で、毎フレーム検出器を実行しつつ、予測+アソシエーションを使って永続的なトラック(ID)に検出を時間的に付与します。 具体的には、トラッカーは以下の3つのことをします。 † 「今、ボトルはどこに置くべきか?」を予測する † 「どの検出がどのトラックに属しているか?」と関連付ける † 変化の中でもアイデンティティを維持する ...