Reddit 是 OpenAI 的大量訓練數據來源。我明天必須再深入挖掘一下。有人知道 Reddit 和 OpenAI 之間有關使用這些數據的法律協議嗎? 那麼,Reddit 用戶對於這些數據的使用有什麼權利(如果有的話)?
Soubhik Deb
Soubhik Deb7月19日 09:50
想像一下,如果因為你幾年前在 reddit、stackexchange、你自己的部落格等地方寫的某篇文章,你能夠從 o3、sonnet 或開源 LLM 的託管服務提供商所產生的收入中獲得一部分收益。 如果互聯網上的人類生成數據是達到 AGI 的化石燃料,那麼人類需要能夠根據他們的貢獻提取所捕獲的價值。 然而現在發生的情況是: > 大型科技公司一次性支付建造數據集的費用並綁定許可證 > 建立基礎模型 > 綁定 API 收取每月 $ 或每 N 個標記的 $ > 獲得收入,籌集數十億或數百億的私人估值,股價上漲 那些數據至關重要的人類 OG 並沒有從這些巨大的價值捕獲中獲得任何東西。 反對者可能會說:“哦,我們現在使用合成數據進行訓練,因為我們發現 AI 優於人類。”但兄弟,你只是在使用之前由人類數據製作的更大模型來生成合成數據,以準備更小但更智能的模型。這只是意味著,沒有前一個模型,這個更小的模型就不會存在,根據血統,OG 人類數據也是如此。再次強調,人類 OG 值得在他們的錢包中看到一部分捕獲的價值。 隨著 RLHF 在後訓練中變得越來越重要,用戶被要求在聊天機器人界面中按讚或踩。這種偏好被用來進一步改善模型,然後用於收取更多的每月 $ 或每 N 個標記的 $ 以供下一版 LLM 使用。然而你,對,你這些人類用戶,卻無法看到任何這些價值傳遞到你的錢包中。 顯然,擁有先進 GPU 和人類數據的化石燃料對於建立最具競爭力的 LLM 產品至關重要。然而,只有 tsmc、nvidia、google 等公司的股東,以及 openai、anthropic 等公司的風險投資者和天使投資者,才獲得了所有的價值捕獲。那些數字足跡被使用的普通人最終只得到微薄的報酬。 無論 AI 專家或現代哲學家設定的任何日期來實現 AGI,通往 AGI 的道路都是以竊取人類對其數據或數字行為的財產權為基礎的。 這裡是最大的提示:我們如何建立一個沒有對手風險的數據市場,能夠持續衡量每個人類數字行為單位對任何商業模型價值捕獲的貢獻,並將版稅分享回人類?想像一下這種情況的存在,我們將擁有一個管道,讓這些巨頭可以使用人類數據來製作越來越好的模型,同時確保普通人可以從他們的數字行為中獲得應有的報酬。那將是一個多麼美好的世界啊!公平分配。 只是一個遲來的星期五沉思!
388