Ich liebe die Vielfalt der aktuellen offenen Datensätze. Es gibt keine Ausrede mehr, um nicht seine eigenen Modelle zu trainieren! - Fineweb und eine Shuffle davon von @karpathy - Webscale-RL, ein großangelegter Reinforcement-Learning-Datensatz von @salesforce - SVQ, ein Audiodatensatz von @Google - Tolle ChatGPT-Prompts mit fast 10.000 Likes von @fkadev - Ein Teil des Math-Datensatzes von @DanHendrycks - Nemotron-Personas von @nvidia - Ein arabischer Datensatz von @rightnowai_co - Ein kuratierter Datensatz von über 1,5 Millionen @github-Repositories - Toucan-1,5M, der größte vollständig synthetische Tool-Agent-Datensatz - Ein wissenschaftlicher Papiersatz von @arxiv - Ein Cybersicherheitsdatensatz von @NIST von @ethanolivertroy Das sind nur die aktuellen Trends unter über einer halben Million öffentlicher Datensätze auf @huggingface!