強化學習研究中最大的問題一直是 - 你在什麼環境中進行訓練? 過去是視頻(Atari)和棋盤(圍棋/象棋)遊戲。 但現在強化學習與大型語言模型(LLMs)一起工作,只有一個環境是重要的。那就是你的產品。
Kevin Lu
Kevin Lu7月10日 00:01
為什麼你應該停止從事強化學習研究,而應該專注於產品 // 解鎖人工智慧大規模擴展轉變的技術是互聯網,而不是變壓器 我想大家都知道數據在人工智慧中是最重要的東西,但研究人員卻選擇不去研究它。... 在可擴展的方式上,研究數據意味著什麼? 互聯網提供了豐富的數據來源,這些數據不僅豐富多樣,還提供了自然的課程,代表了人們真正關心的能力,並且是一種經濟上可行的技術,可以大規模部署——它成為了下一個標記預測的完美補充,並且是人工智慧起飛的原始湯。 如果沒有變壓器,任何數量的方法都可能起飛,我們可能會有 CNN 或狀態空間模型達到 GPT-4.5 的水平。但自從 GPT-4 以來,基礎模型並沒有顯著改善。推理模型在狹窄的領域中表現出色,但並不像 GPT-4 在 2023 年 3 月(兩年多前)那樣有巨大的飛躍。 我們在強化學習方面有一些偉大的東西,但我深深擔心我們會重蹈過去的覆轍(2015-2020 年代的強化學習),進行不重要的強化學習研究。 就像互聯網是監督預訓練的對偶一樣,什麼將是強化學習的對偶,將導致像 GPT-1 -> GPT-4 這樣的重大進展?我認為這看起來像是研究-產品共同設計。
10.63K