一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我強烈譴責對 Prime Intellect 的抨擊，他們正在做正確的事情。將訓練後的中文基礎模型推向前沿水平，事實上比學習如何預訓練我們自己的基礎模型*更重要*。我基本上不在乎 PI、Arcee 和其他人能預訓練什麼，儘管我對他們很快會趕上有合理的期望。西方的計算資源豐富，我們已經看到小型模型（這兩個 + @ZyphraAI、@Dorialexander、@natolambert 與 Olmo…）在西方開放空間中擁有足夠的預訓練專業知識的證據；根據所有報告，它是可擴展的。但這主要是…地緣政治意義，關於你們將被允許在愛國的伺服器上運行什麼，這些伺服器連接到代理框架。我既不是西方人也不是中國人，與我發帖的內容相反，我對這個維度並不關心，這純粹是一個工具性問題。參考簡介：這場競賽不是美國/西方與中國之間的競爭，而是人類與 AGI 對抗猿類權力集中化的競爭。而 Prime Intellect 正在做的事情比任何人都更多，以遏制這種集中化的驅動力。考慮並流淚：HF 充滿了我們太無能以至於無法利用的 Celestial 禮物，它們就這樣腐爛，直到變得過時。數千到數百萬的下載，卻沒有任何成果。為什麼 Qwen 甚至會做過時的、非常昂貴的類 Llama 密集模型？主要是因為 a) 阿里巴巴有一個 KPI "每月 HF 下載量"，以及 b) 學術界和小型實驗室無法弄清楚如何微調現代架構。即使基礎設施更成熟，他們技術上不再 ngmi，他們又能在什麼上進行微調呢？開源微調的敘事巔峰是 Nous-Hermes，而那個範式基本上只是提煉 GPT-4，根據 "品味" 和模糊標準過濾，對強基礎進行 SFT，然後希望能有好的結果。這種攻擊角度在 OpenAI 等公司事先被輕蔑地駁回，認為這是一條不具威脅性的死胡同，會獎勵幻覺和風格模仿，並且可預測地熄滅了。接下來是什麼，「RL」？什麼 RL，如何 RL，信號生成器是什麼，如何與下游任務交叉？Kimi-K2，一個完美的前沿級基礎，已經對所有人開放了好幾個月。DeepSeek-V3，幾乎快一年了。V2，已經超過一年。數十個各種大小的模型，定期更新，提供更長的上下文和其他好處。我們用這些建造了什麼？任何接近中國內部指令的東西，更不用說當代前沿了？你好？你能指給我這些衍生品嗎？這完全是對開放科學理念的褻瀆。甚至連中國人都不在乎，他們都只是從零開始訓練自己的模型。我能想到的例外不多（例如 Rednote 製作 DSV3-VL），但沒有一個引起大的轟動。價值數十億的初創公司，其護城河是搜索或代理編碼，因此擁有大量的後訓練數據集，偷偷地在他們的專有產品中使用 DS/GLM/Qwen，但他們不分享 alpha。就這樣。進入 Prime Intellect。他們正在解決訓練問題。他們正在解決環境生成問題。他們在原則上思考塑造通用模型認知的信號。他們實際上正在解鎖積累的巨大靜態價值。對於世界來說，這比另一個跟風模型要重要得多。他們非常聰明，意圖良好，擁有穩固的路線圖，他們是我的朋友。我不會容忍對他們工作的輕視，因為這服務於偉大的共同任務。如果你看不出來，那麼你對這個階段真正重要的事情一無所知。