ロボットは人間の動画を見るだけで複雑なスキルを学ぶことができます。 清華大学、MIT、アストリボットの研究者がCLAPを発表しています。 彼らの新しい手法は、ビデオフレームとロボットの動きデータを照らし合わせ、人間の行動を実行可能なロボットコマンドに変換する共有の「アクション辞書」を作成します。 人間の動画からロボットへのスキル移転において既存のモデルを上回り、より良い指示の従従と正確な操作を可能にします。 CLAP:人間の動画から視覚・言語・行動モデルを学ぶための対照的な潜在行動前訓練 論文: プロジェクト: 私たちの報告: 📬 #PapersAccepted:ジーチジシン