我强烈谴责对 Prime Intellect 的抨击,他们正在做正确的事情。 将训练后的中文基础模型提升到前沿水平,实际上比学习如何预训练我们自己的基础模型更为重要。我基本上不在乎 PI、Arcee 和其他人能预训练什么,尽管我合理地预期他们很快会赶上。西方的计算资源丰富,我们已经看到在西方开放空间中有足够的预训练专业知识的证据(这两位 + @ZyphraAI, @Dorialexander, @natolambert 与 Olmo……);根据所有的说法,它是可扩展的。但这主要是……地缘政治的意义,关于你们在连接到代理框架的爱国服务器上被允许运行什么。我既不是西方人也不是中国人,与我发布的内容相反,我对这个维度并不关心,这纯粹是一个工具性问题。请参考个人简介:这场竞赛不是美国/西方与中国之间的,而是人类与 AGI 对抗猿类权力集中化的竞赛。Prime Intellect 正在做的事情比任何人都要多,以遏制这种集中化的驱动。 考虑并哭泣:HF 充满了我们太无能以至于无法利用的 Celestial 礼物,它们就这样腐烂,直到变得过时。数千到数百万的下载,却没有任何成果。Qwen 为什么还在做过时的、非常昂贵的类似 Llama 的稠密模型?主要是因为 a) 阿里巴巴有一个 KPI "每月 HF 下载量",以及 b) 学术界和小实验室无法弄清楚如何微调现代架构。即使基础设施更加成熟,他们的技术水平不再 ngmi,他们又能在什么上进行微调呢?开源微调的叙事巅峰是 Nous-Hermes,而那个范式基本上只是提炼 GPT-4,根据 "品味 "和模糊标准进行过滤,在强大的基础上进行 SFT,并希望能有好的结果。OpenAI 等人事先对这种攻击角度嗤之以鼻,认为这是一条无威胁的死胡同,奖励幻觉和风格模仿,结果可预见地失败了。接下来是什么,«RL»?什么 RL,如何 RL,信号生成器是什么,它如何与下游任务交叉?Kimi-K2,一个完美的前沿级基础,已经对所有人开放了好几个月。DeepSeek-V3,差不多快一年了。V2,已经超过一年。数十个各种规模的模型,定期更新,提供更长的上下文和其他好处。我们用这些做了什么? 有什么东西甚至接近中国内部的指令,更不用说当代前沿了?你好?你能指给我这些衍生品吗?这完全是对开放科学理念的亵渎。甚至连中国人都不在乎,他们都只是从头开始训练自己的模型。我能想到的例外寥寥无几(例如 Rednote 制作 DSV3-VL),但没有一个引起大的轰动。价值数十亿的初创公司,其护城河是搜索或代理编码,因此拥有大量的后期训练数据集,偷偷在他们的专有产品中使用 DS/GLM/Qwen,但他们不分享 alpha。这……差不多就是了。 Prime Intellect 登场了。他们正在解决训练问题。他们正在解决环境生成问题。他们在原则上思考塑造通用模型认知的信号。他们实际上是在解锁积累的巨大无效价值。对世界来说,这远不止是另一个跟风模型。他们聪明得可怕,意图良好,有着稳固的路线图,他们是我的朋友。我不会容忍对他们工作的轻视,因为这服务于伟大的共同任务。如果你看不到这一点,你就对这个阶段真正重要的事情一无所知。