熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我今年最喜歡的論文:"視頻模型是零樣本學習者和推理者"
它說明視頻模型在規模上顯示出新興的視覺推理能力——它們可以解決未經訓練的視覺任務。
這可能是視覺的"GPT時刻"。讓我們來分析一下 👇
首先 - 為什麼相信視頻模型可能會發展出視覺推理?
在文本方面也發生過類似的情況。我們曾經為每個任務訓練特定的模型 - 但現在,LLM 擁有通用的語言理解能力,能夠處理許多它們未經明確訓練的任務。
視頻模型在大規模上也可能做到這一點。

這篇論文測量了超過18,000個由Veo 3生成的視頻,涵蓋了定性和定量任務。
研究發現,Veo能夠感知、修改和操控視覺世界(從圖像 + 文本提示開始)- 展示了它未經明確訓練的早期推理能力。
我們將逐一處理每個類別。

👀 感知 - 當被提示時,Veo 可以檢測邊緣並識別場景中的不同物體。
這意味著它可以作為一個分割模型運作,儘管並未在該任務上進行訓練,這具有一些有趣的下游影響。
1) "在巨嘴鳥坐的樹枝尖端添加一個明亮的藍點。巨嘴鳥的眼睛變成明亮的紅色。其他一切變成漆黑。"
2) "藍球瞬間開始發光。靜態相機視角。"
🌐 建模 - Veo 可以根據這種感知來建模世界(以及支配它的原則)。
它展示了對物理學的深刻理解 - 像空氣阻力和浮力這樣的事物,光學現象如折射和反射,以及顏色混合。
1) "手放開物體"
2) "一個巨大的鏡面拋光金屬球在房間裡滾動"
🤏 操控 - Veo 可以根據這種感知和建模操控視覺世界。
這使得零樣本圖像編輯任務成為可能 - 想想場景合成、背景去除、風格轉換,甚至靈巧的操控。
1) "運用常識,讓兩隻機器手臂打開罐子,就像人類一樣。"
2) "將這張自拍轉換成 LinkedIn 的專業頭像。"
🤔 視覺推理 - 以上所有技能都會導致推理。
這是通過給模型視覺基礎的挑戰來測量的,這些挑戰需要逐步推理。
想像一下製作類比、解決迷宮或謎題、使用工具或遍歷圖形。
1) "在不越過任何黑色邊界的情況下,灰色老鼠從角落靈巧地繞過迷宮,直到找到黃色的起司。"
2) "修改右下角的網格以遵循其他網格所建立的規則。您可以填充單元格、清除單元格或更改單元格的顏色。"
好消息是:視覺推理隨著時間的推移而變得更好。
在許多這些任務上的表現從 Veo 2 到 Veo 3 有了顯著的提升。我在下面列出了一些例子。
簡而言之 - "如果你在等待視頻模型中的準確物理,請耐心等候" 😂

246
熱門
排行
收藏
