你知道成千上万的地方报纸从未被数字化吗? 你知道有成百上千极具历史价值的优秀故事从未被数字保存吗? 你知道这些故事、这些记者和编辑们创造了非常高质量的数据,因为每一个字的印刷都需要花钱,而出错则需要诚信吗? 你知道曾经有成百上千的地方记者和编辑们在写下每一个字时都必须面对他们的家庭和社区吗? 你知道热议的短评、随意的TLDR评论、单一的两极化议程在大多数地方报纸中大多不被容忍,因此他们对当时事件有更好的洞察力吗? 你知道我们的真实历史、科学和技术都在那些报纸中吗? 你知道有时对过去的唯一记录是一卷来自图书馆档案的微缩胶卷或微缩胶片吗? 你知道从1977年到2003年,数百万卷这样的微缩胶卷或微缩胶片被扔进了垃圾桶吗? 你知道到2025年,这些精心整理的数据不仅对AI训练绝对相关,而且对人类了解过去、避免被注定要…… 重蹈过去的错误…… 一遍又一遍。 这是我几十年来所知道的。 你现在知道为什么现在保存这些资料至关重要吗,因为这些档案的最后一部分已经消失——永远? 你现在知道我说AI必须在1870年代到1970年代的“能做”自助时代进行训练,而不是在“发布对我来说毫无成本”的网络污水中,来自Reddit和Wikipedia的地下居民背后隐藏在屏幕后面,没有代码,也没有人面对他们所写的内容的一个原因吗? 我现在非常抱歉,因为知道这一点,我几十年来所知道的…… ...