Zařazení Redditorových nesmyslů do tréninkových dat každého LLM je velkou částí důvodu, proč je beznadějné, pokud ho skutečně žádáte, aby se vyjádřil k něčemu důležitému, jako by byl člověk, místo aby jen psal kód, zpracovával data, dělal zákaznickou podporu atd.
Aakash Gupta
Aakash Gupta16. 3. 11:48
50 % všech rad ohledně vztahů na Redditu je "odejdi". 15 let dat, 52 milionů komentářů a trendová čára jde jen jedním směrem. Výzkumník zredukoval r/relationship_advice na 1 166 592 kvalitních komentářů a sledoval, co lidé skutečně doporučují. V roce 2010 se "End Relationship" pohybovalo kolem 30 %. Do roku 2025 se blíží k 50 %. "Komunikovat" klesla z 22 % na 14 %. "Kompromis" klesl z 7 % na 3 %. "Give Space" klesl z 25 % na 13 %. Každá kategorie, která vyžaduje trpělivost, každý rok ztrácela půdu pod nohama. Kategorie, která roste rychleji než "odejít", je "Vyhledat terapii", která vzrostla z 1 % na 6 %. Subreddit se pomalu učí říkat "tohle je nad mou úroveň." Natrénujte model na tomto datasetu a rozhodně by lidem řekl, aby se rozdělili. Data o tréninku jsou 50 % "odejít" a stoupat na maximum. Model by nebyl rozbitý. Přesně by odráželo to, co si o vašem vztahu skutečně myslí 52 milionů komentujících. 50 % předtím, že byste měli odejít, 14 % předtím, kdy byste o tom měli mluvit, a 6 % předtím, než potřebujete odborníka. To není psychóza LLM. To je medián lidského názoru na váš vztah, podpořený největším datovým souborem rad, jaký kdy byl sestaven.
Odpadky dovnitř, odpadky ven
110