Reddit-roskan sisällyttäminen jokaiseen LLM:n koulutusdataan on iso syy siihen, miksi on toivotonta, jos pyydät sitä oikeasti ottamaan kantaa mihinkään tärkeään, kuten henkilöön, etkä vain kirjoittamaan koodia, käsittelemään dataa, hoitamaan asiakastukea jne.
Aakash Gupta
Aakash Gupta16.3. klo 11.48
50 % kaikesta parisuhdeneuvonnasta Redditissä on "lähde". 15 vuoden dataa, 52 miljoonaa kommenttia, ja trendilinja kulkee vain yhteen suuntaan. Tutkija suodatti r/relationship_advice:n 1 166 592 laadukkaaseen kommenttiin ja seurasi, mitä ihmiset oikeasti suosittelevat. Vuonna 2010 "End Relationship" oli noin 30 %. Vuoteen 2025 mennessä se lähestyy 50 %. "Kommunikoi" laski 22 prosentista 14 prosenttiin. "Kompromissi" romahti 7 prosentista 3 prosenttiin. "Give Space" laski 25 prosentista 13 prosenttiin. Jokainen kärsivällisyyttä vaativa kategoria menetti asemiaan joka ikinen vuosi. Yksi kategoria, joka kasvaa nopeammin kuin "lähde", on "Seek Therapy", joka laski 1 prosentista 6 prosenttiin. Subreddit oppii hitaasti sanomaan "tämä on minun palkkaluokkani yläpuolella." Kouluta malli tälle aineistolle, niin se varmasti käskee ihmisiä eroamaan. Koulutusdatasta 50 % on "leave" ja nousua. Malli ei olisi rikki. Se heijastaisi tarkasti sitä, mitä 52 miljoonaa kommentoijaa oikeasti uskoo suhteestanne. 50 % ennen sitä, että sinun pitäisi lähteä, 14 % ennen sitä, että sinun pitäisi puhua asiasta, ja 6 % ennen sitä, että tarvitset ammattilaisen. Se ei ole LLM-psykoosia. Tämä on mediaanillinen ihmismielipide suhteestanne, jota tukee suurin koskaan koottu neuvontaaineisto.
Roskat sisään, roskat ulos
104