Jeg elsker mangfoldet av populære åpne datasett i disse dager. Det er ingen unnskyldning lenger for ikke å trene dine egne modeller! - Fineweb og en stokking av den av @karpathy - Webscale-RL, et storskala datasett for forsterkende læring fra @salesforce - SVQ, et lyddatasett fra @Google - Fantastiske chatgpt-forespørsler med nesten 10 000 likes av @fkadev - Et delsett av Math-datasettet etter @DanHendrycks - Nemotron-personas av @nvidia - Et arabisk datasett av @rightnowai_co - Et kuratert datasett med 1,5 millioner + @github depoter - Toucan-1,5M, det største helsyntetiske verktøy-agent-datasettet - Et vitenskapelig artikkeldatasett fra @arxiv - Et cybersikkerhetsdatasett fra @NIST av @ethanolivertroy Dette er bare den nåværende trenden blant over en halv million offentlige datasett på @huggingface!