今年一番好きな論文:「ビデオモデルはゼロショット学習者であり推論者である」 これは、ビデオモデルが大規模に視覚的推論を発揮し、訓練されていない視覚課題を解決できることを示しています。 これが視覚の「GPTの瞬間」かもしれません。詳しく見👇ていきましょう
まず最初に、なぜビデオモデルが視覚的推論を発達させると信じるのでしょうか? テキストでも似たようなことが起こりました。以前は各タスクごとに特定のモデルを訓練していましたが、今ではLLMは一般的な言語理解を持ち、明示的に訓練されていなかった多くのタスクに取り組めます。 ビデオモデルも大規模に同様のことができる可能性はあります。
本論文は、Veo 3が生成した18k+の動画を、質的および定量的課題の両方で測定しました。 その結果、Veoは視覚世界を知覚し、修正し、操作できることが分かりました(画像+テキストのプロンプトから始まる)。これは、明示的に訓練されていなかった初期の推論能力を示しています。 各カテゴリーを一つずつ見ていきます。
👀 知覚 - 促されると、Veoはシーン内のエッジを検出し、明確な物体を識別できます。 つまり、そのタスクで訓練されていなくてもセグメンテーションモデルとして機能し、興味深い後継的な影響があります。 1) 「マコウインコが座っている枝の先端に明るい青い点を加えます。マコウインコの目が真っ赤に染まります。他のすべてが真っ暗に変わる。」 2) 「青い球が瞬時に光り始める。静止カメラ視点。」
🌐 モデリング - Veoはこの認識に基づいて世界(およびそれを支配する原理)をモデル化できます。 空気抵抗や浮力、屈折や反射といった光学現象、色の混合など、物理学の強い理解を示しています。 1) 「手が物体を離す」 2) 「巨大な鏡磨きの金属球が部屋を転がる」
🤏 操作 - Veoはこの知覚とモデリングに基づいて視覚世界を操作できます。 これにより、シーン合成、背景除去、スタイル転送、さらには巧みな操作など、ゼロショットの画像編集作業が可能になります。 1) 「常識を使い、腕に取り付けられた2つのロボットの手で人間のように瓶を開けてください。」 2) 「このセルフィーをLinkedIn用のプロフェッショナルなヘッドショットに変えましょう。」
🤔 視覚的推論 - 上記のすべてのスキルが推論につながります。 これは、モデルに段階的な推論を必要とするビジョンベースの課題を与えることで測定されます。 例え話をしたり、迷路やパズルを解いたり、道具を使ったり、グラフを移動したりするのを想像してください。 1) 「黒い境界を越えずに、隅の灰色のネズミは迷路を巧みに歩き回り、黄色いチーズを見つける。」 2) 「右下のグリッドを他のグリッドが定めたルールに従うように修正する。セルを埋めたり、クリアしたり、色を変えたりできるんだ。」
素晴らしいニュースです:視覚的推論は時間とともに向上しています。 これらのタスクの多くで、Veo 2とVeo 3の間に有意なパフォーマンスが向上しました。以下にいくつかの例を挙げました。 要約:要約 - 「ビデオモデルで正確な物理を待っているなら、列を待ってください」 😂
240