我喜欢这些天流行的开放数据集的多样性。再也没有借口不训练自己的模型了! - Fineweb 和 @karpathy 的一个变体 - Webscale-RL,一个来自 @salesforce 的大规模强化学习数据集 - SVQ,一个来自 @Google 的音频数据集 - 一份几乎获得 10,000 个赞的精彩 chatgpt 提示,由 @fkadev 提供 - @DanHendrycks 提供的数学数据集的一个子集 - @nvidia 提供的 Nemotron 人物 - @rightnowai_co 提供的阿拉伯语数据集 - 一个包含 1.5M+ @github 仓库的策划数据集 - Toucan-1.5M,最大的完全合成工具代理数据集 - 来自 @arxiv 的科学论文数据集 - 来自 @NIST 的网络安全数据集,由 @ethanolivertroy 提供 这些只是 @huggingface 上超过五十万个公共数据集中当前流行的部分!