Reddit byl pro OpenAI velkým zdrojem tréninkových dat. Ráno musím ještě kopat. Ví někdo o právní dohodě mezi Redditem a OpenAI týkající se použití těchto dat? A jaká práva, pokud vůbec nějaká, mají/měli by mít uživatelé Redditu RE k používání těchto dat?
Soubhik Deb
Soubhik Deb19. 7. 09:50
Představte si, co kdybyste si kvůli nějakému příspěvku, který jste napsali před lety na redditu, stackexchange, vašem vlastním blogu atd., mohli ukrojit z příjmů, které vydělává o3 nebo sonnet nebo poskytovatelé hostovaných služeb open-source LLM. Pokud jsou lidmi generovaná data na internetu fosilním palivem pro dosažení AGI, lidé musí být schopni extrahovat zachycenou hodnotu v poměru ke svému příspěvku. Místo toho se nyní děje to, co je > velké technologické společnosti platí paušální částku za vytváření datových sad a získání licence > vytvoření základního modelu > rozhraní API a účtovat $/měsíc nebo $ za N tokenů > dosáhnout zisku, zvýšit soukromé ocenění o 10 nebo 100 miliard dolarů, ceny akcií rostou Lidští OG, jejichž data byla kritická, z těchto monstrózních zachycení hodnot nic nemají. Odpůrci by mohli říci "ach, nyní používáme syntetická data pro trénink, protože považujeme umělou inteligenci za lepší než lidé". Ale brácho, ty jen používáš větší modely vytvořené dříve z lidských dat k vytvoření syntetických dat pro přípravu menších, ale chytřejších modelů. To jen znamená, že menší model by neexistoval bez předchozího modelu a podle geneologie původních lidských dat. Opět platí, že lidští OG si zaslouží vidět část hodnoty zachycenou v jejich peněžence. Vzhledem k tomu, že RLHF je pro post-trénink stále důležitější, uživatelé jsou žádáni, aby v rozhraních chatbotů mačkali palec nahoru nebo dolů. Tato předvolba se používá k dalšímu vylepšení modelu, který se pak používá k účtování dalších $/měsíc nebo $ za N tokenů pro další vydání LLM. Přesto vy, ano, vy lidští uživatelé, nejste schopni vidět, že žádná z těchto hodnot byla přenesena do vaší peněženky. Je zřejmé, že přístup k pokročilým GPU a fosilním palivům z lidských dat byl rozhodující pro vybudování nejkonkurenceschopnějších nabídek LLM. Přesto pouze akcionáři tsmc, nvidia, google atd. a vc, andělští investoři openai, anthropic atd. získávají veškerý zachycení hodnoty. Normální lidé, jejichž digitální stopa byla použita, nakonec dostanou buráky. Bez ohledu na to, jaké datum učenci umělé inteligence nebo moderní filozofové stanovili pro dosažení AGI, cesta k AGI je dlážděna krádežemi vlastnických práv lidí k jejich datům nebo digitálním akcím. Zde je největší výzva: jak vybudujeme datový trh bez rizika protistrany, který je schopen nepřetržitě měřit příspěvek každé jednotky digitální akce člověka k zachycení hodnoty jakéhokoli komerčního modelu a sdílet licenční poplatky zpět člověku? Představte si, že tam bude, budeme mít kanál, kde kterýkoli z těchto kolosů může využívat lidská data k vytváření lepších a lepších modelů a zároveň zajistit, aby normie human mohl sklízet náležité výplaty ze svých digitálních akcí. Jaký to bude nádherný svět! Spravedlivé rozdělení. Jen pozdní páteční přemítání!
377