如果我是 a16z、yc 或 sequoia,我會積極投資於那些正在建立新方法來收集和註釋現實世界數據的初創公司。 > 數十億小時的駕駛數據 > 工廠工人與設備和重型機械的互動 > 具備深厚方言和文化理解的音頻分割 > 濕實驗室實驗數據 > 在計算規模下持續收集和註釋代理痕跡 當我們建立 LLM 時,大部分數據已經存在於互聯網上。我們只需抓取、清理和擴展。但隨著我們朝著世界基礎模型邁進,瓶頸在於高質量、現實世界的、良好註釋的數據。 而註釋質量至關重要。這之間有著巨大的差異: “樹上的蘋果” 和 “樹上的成熟蘋果。風速為每小時 2 英里。氣溫約為 18°C。” 問題很簡單。你實際上能捕捉到多少世界? 今天,LLM 知道蘋果因為重力而掉落,而不是因為它們理解因果關係,而是因為它們非常擅長理解語言相關性。理解因果結構是接下來的任務。 如果我在朝著那個未來努力,我會將數據收集的重心放在印度和其他南亞及東南亞地區。我會部署硬體,收集數千小時的人類活動數據、健康信號和生命體徵,並持續運行註釋管道。日以繼夜。 如果我是 a16z,我會資助創始人來做這件事。 我可能會有衝動自己去做。