Die Einbeziehung von Redditor-Geschwafel in die Trainingsdaten aller LLMs ist ein großer Teil des Grundes, warum es hoffnungslos ist, wenn man tatsächlich erwartet, dass es zu irgendetwas Wichtigem Stellung nimmt, als wäre es eine Person, anstatt einfach nur Code zu schreiben, Daten zu verarbeiten, Kundenservice zu leisten usw.
Aakash Gupta
Aakash Gupta16. März, 11:48
50 % aller Beziehungstipps auf Reddit sind "verlasse es." 15 Jahre Daten, 52 Millionen Kommentare, und die Trendlinie zeigt nur in eine Richtung. Ein Forscher filterte r/relationship_advice auf 1.166.592 qualitativ hochwertige Kommentare und verfolgte, was die Leute tatsächlich empfehlen. Im Jahr 2010 lag "Beziehung beenden" bei etwa 30 %. Bis 2025 nähert es sich 50 %. "Kommunizieren" fiel von 22 % auf 14 %. "Kompromiss" brach von 7 % auf 3 % ein. "Raum geben" fiel von 25 % auf 13 %. Jede Kategorie, die Geduld erfordert, hat jedes Jahr an Boden verloren. Die einzige Kategorie, die schneller wächst als "verlasse es", ist "Therapie suchen", die von 1 % auf 6 % stieg. Das Subreddit lernt langsam zu sagen: "Das liegt über meinem Gehaltsniveau." Trainiere ein Modell mit diesem Datensatz, und es würde den Leuten absolut sagen, sie sollen sich trennen. Die Trainingsdaten bestehen zu 50 % aus "verlasse es" und steigen. Das Modell wäre nicht kaputt. Es würde genau widerspiegeln, was 52 Millionen Kommentatoren tatsächlich über deine Beziehung glauben. Ein 50 %iger Vorbehalt, dass du gehen solltest, ein 14 %iger Vorbehalt, dass du darüber sprechen solltest, und ein 6 %iger Vorbehalt, dass du einen Fachmann brauchst. Das ist keine LLM-Psychose. Das ist die mediane menschliche Meinung zu deiner Beziehung, gestützt durch den größten je zusammengestellten Rat-Datensatz.
Müll rein, Müll raus
99