Việc đưa nội dung từ Redditor vào dữ liệu đào tạo của mọi LLM là một phần lớn lý do tại sao nó trở nên vô vọng nếu bạn thực sự yêu cầu nó đưa ra ý kiến về bất cứ điều gì quan trọng như thể nó là một con người thay vì chỉ viết mã, xử lý dữ liệu, làm hỗ trợ khách hàng, v.v.
Aakash Gupta
Aakash Gupta11:48 16 thg 3
50% tất cả lời khuyên về mối quan hệ trên Reddit là "rời bỏ." 15 năm dữ liệu, 52 triệu bình luận, và đường xu hướng chỉ đi theo một hướng. Một nhà nghiên cứu đã lọc r/relationship_advice xuống còn 1.166.592 bình luận chất lượng và theo dõi những gì mọi người thực sự khuyên. Năm 2010, "Kết thúc Mối quan hệ" chiếm khoảng 30%. Đến năm 2025, con số này đang tiến gần 50%. "Giao tiếp" giảm từ 22% xuống 14%. "Thỏa hiệp" sụp đổ từ 7% xuống 3%. "Cho không gian" giảm từ 25% xuống 13%. Mọi danh mục yêu cầu sự kiên nhẫn đều mất điểm mỗi năm. Danh mục duy nhất phát triển nhanh hơn "rời bỏ" là "Tìm kiếm liệu pháp," từ 1% lên 6%. Subreddit đang dần học cách nói "điều này vượt quá khả năng của tôi." Huấn luyện một mô hình trên tập dữ liệu này và nó chắc chắn sẽ bảo mọi người chia tay. Dữ liệu huấn luyện là 50% "rời bỏ" và đang tăng. Mô hình sẽ không bị hỏng. Nó sẽ phản ánh chính xác những gì 52 triệu người bình luận thực sự tin về mối quan hệ của bạn. Một tỷ lệ 50% rằng bạn nên rời bỏ, một tỷ lệ 14% rằng bạn nên nói về nó, và một tỷ lệ 6% rằng bạn cần một chuyên gia. Đó không phải là tâm lý LLM. Đó là ý kiến trung bình của con người về mối quan hệ của bạn, được hỗ trợ bởi tập dữ liệu lời khuyên lớn nhất từng được tập hợp.
Đầu vào rác, đầu ra rác
109