我想知道這個「像素 vs. 代幣」是否也可以擴展到「音頻 vs. 文字」。 大多數曾經被講過的語言從來沒有書面形式。當我們將口語轉換成文字記錄時,許多豐富的信息(語調、潛台詞、韻律)都會丟失。 比較「有文化的」大型語言模型(基於文字圖像訓練)和「口語的」大型語言模型(基於原始音頻訓練)可能是一個有趣的實驗,這與人類社會形成對比:一種以符號和空間思考,另一種以節奏和時間思考。
Andrej Karpathy
Andrej Karpathy2025年10月21日
我相當喜歡新的 DeepSeek-OCR 論文。這是一個不錯的 OCR 模型(可能比 dots 差一些),是的,數據收集等等,但無論如何這都不重要。 對我來說,更有趣的部分(尤其是作為一名電腦視覺專家,暫時偽裝成自然語言專家)是像素是否比文本更適合作為 LLM 的輸入。文本標記是否浪費且糟糕,作為輸入。 也許更合理的是,所有 LLM 的輸入應該永遠只有圖像。即使你碰巧有純文本輸入,也許你會更喜歡將其渲染後再輸入: - 更多的信息壓縮(見論文)=> 更短的上下文窗口,更高的效率 - 顯著更多的一般信息流 => 不僅僅是文本,例如粗體文本、彩色文本、任意圖像。 - 輸入現在可以輕鬆地以雙向注意力處理,並作為默認,而不是自回歸注意力 - 強大得多。 - 刪除標記器(在輸入時)!!我已經抱怨過我有多不喜歡標記器。標記器很醜,分開,並不是端到端的階段。它 "導入" 了所有 Unicode、字節編碼的醜陋,繼承了很多歷史包袱,安全/越獄風險(例如,續字節)。它使兩個在眼睛上看起來相同的字符在網絡內部看起來像兩個完全不同的標記。一個微笑的表情符號看起來像一個奇怪的標記,而不是一個... 實際的微笑臉,像素和所有的轉移學習都隨之而來。標記器必須去。 OCR 只是許多有用的視覺 -> 文本任務之一。而文本 -> 文本任務可以被轉化為視覺 -> 文本任務。反之則不然。 所以用戶消息可能是圖像,但解碼器(助手的回應)仍然是文本。如何現實地輸出像素就不那麼明顯了... 或者你是否想這樣做。 現在我還得抵抗想要側重於僅圖像輸入版本的 nanochat 的衝動...
這將是一場文明之間的比賽,一方建造石頭的紀念碑,另一方則建造歌曲的紀念碑
另一件事讓我想起的是雪莉的《奧西曼迪亞斯》,那巨大的遺跡埋藏在沙中,而這種意象並不是通過詩人的眼睛傳遞出來的,而是通過一位旅行者的口述故事。
8.09K