Saya menyukai keragaman kumpulan data terbuka yang sedang tren akhir-akhir ini. Tidak ada alasan lagi untuk tidak melatih model Anda sendiri! - Fineweb dan pengocokannya oleh @karpathy - Webscale-RL, kumpulan data pembelajaran penguatan skala besar dari @salesforce - SVQ, himpunan data audio dari @Google - Prompt chatgpt yang luar biasa dengan hampir 10.000 suka oleh @fkadev - Bagian dari himpunan data Matematika berdasarkan @DanHendrycks - Persona Nemotron oleh @nvidia - Himpunan data bahasa Arab oleh @rightnowai_co - Himpunan data yang dikuratori dari 1,5 juta+ repositori @github - Toucan-1.5M, kumpulan data alat-agen sintetis terbesar - Kumpulan data makalah ilmiah dari @arxiv - Himpunan data keamanan siber dari @NIST oleh @ethanolivertroy Ini hanyalah tren saat ini di antara lebih dari setengah juta kumpulan data publik di @huggingface!