Adoro la diversità dei dataset aperti di tendenza in questi giorni. Non ci sono più scuse per non addestrare i propri modelli! - Fineweb e una sua variante di @karpathy - Webscale-RL, un dataset di apprendimento per rinforzo su larga scala di @salesforce - SVQ, un dataset audio di @Google - Prompts fantastici di chatgpt con quasi 10.000 mi piace di @fkadev - Un sottoinsieme del dataset Math di @DanHendrycks - Persone di Nemotron di @nvidia - Un dataset arabo di @rightnowai_co - Un dataset curato di oltre 1,5 milioni di repository @github - Toucan-1.5M, il più grande dataset completamente sintetico di tool-agent - Un dataset di articoli scientifici di @arxiv - Un dataset di cybersecurity di @NIST di @ethanolivertroy Questi sono solo i trend attuali tra oltre mezzo milione di dataset pubblici su @huggingface!