Líbí se mi rozmanitost trendových otevřených datových sad v dnešní době. Už neexistuje žádná výmluva, proč netrénovat své vlastní modely! - Fineweb a jeho zamíchání od @karpathy - Webscale-RL, rozsáhlá datová sada zpětnovazebního učení od společnosti @salesforce - SVQ, zvuková datová sada z @Google - Úžasné výzvy chatgpt s téměř 10 000 lajky od @fkadev - Podmnožina datové sady Math podle @DanHendrycks - Postavy Nemotronu od @nvidia - Arabská datová sada od @rightnowai_co - Kurátorská datová sada 1,5 milionu+ @github úložišť - Toucan-1.5M, největší plně syntetická datová sada nástrojů a agentů - Datová sada vědeckého článku z @arxiv - Soubor dat kybernetické bezpečnosti od @NIST od @ethanolivertroy To jsou jen aktuální trendy mezi více než půl milionem veřejných datových sad na @huggingface!