最近トレンドになっているオープンデータセットの多様性が大好きです。独自のモデルをトレーニングしない言い訳はもうありません。 - Fineweb と @karpathy によるシャッフル - Webscale-RL、@salesforce の大規模強化学習データセット - SVQ、@Google のオーディオデータセット - @fkadev で約 10,000 件の「いいね!」がついた素晴らしい chatgpt プロンプト - @DanHendrycks別の数学データセットのサブセット - @nvidiaによるネモトロンのペルソナ - @rightnowai_coによるアラビア語データセット - 1.5M+ @githubリポジトリの厳選されたデータセット - Toucan-1.5M、最大の完全合成ツールエージェントデータセット - @arxivの科学論文データセット - @ethanolivertroyによる@NISTのサイバーセキュリティデータセット これらは、@huggingface の 50 万を超える公開データセットの現在のトレンドにすぎません。