Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Một phát hiện thú vị trong bài báo mới của Google.
Các mô hình lý luận vượt trội hơn các mô hình được điều chỉnh theo hướng dẫn trong các nhiệm vụ phức tạp.
Giải thích phổ biến là việc tính toán kéo dài trong thời gian kiểm tra xảy ra thông qua các chuỗi suy nghĩ dài hơn.
Nhưng nghiên cứu mới này tiết lộ điều gì đó sâu sắc hơn.
Nó gợi ý rằng khả năng lý luận được nâng cao xuất phát từ việc mô phỏng ngầm các tương tác giống như đa tác nhân bên trong chính mô hình.
Các nhà nghiên cứu gọi đó là "xã hội của tư duy."
Thông qua phân tích định lượng các dấu vết lý luận từ DeepSeek-R1 và QwQ-32B, họ phát hiện rằng các mô hình này thể hiện sự đa dạng quan điểm lớn hơn nhiều so với các mô hình cơ bản.
Chúng kích hoạt xung đột rộng hơn giữa các đặc điểm liên quan đến tính cách và chuyên môn khác nhau trong quá trình lý luận.
Điều này trông như thế nào?
Các hành vi giao tiếp bao gồm các chuỗi hỏi-đáp, sự thay đổi quan điểm, xung đột giữa các quan điểm và hòa giải các bất đồng.
Mô hình tranh luận với chính nó, đảm nhận các vai trò xã hội- cảm xúc khác nhau mà đặc trưng cho một cuộc trò chuyện sắc nét qua lại.
DeepSeek-R1 cho thấy nhiều câu hỏi-đáp, sự thay đổi quan điểm và hòa giải hơn đáng kể so với DeepSeek-V3. Mô hình tương tự cũng đúng với QwQ-32B so với Qwen-2.5-32B-IT. Các mô hình được điều chỉnh theo hướng dẫn tạo ra các độc thoại một chiều. Các mô hình lý luận tạo ra đối thoại mô phỏng.
Các mô hình lý luận thành công tránh "phòng vang" dẫn đến các câu trả lời sai. Bằng cách mô phỏng sự bất đồng giữa các quan điểm đa dạng, chúng ngăn chặn sự tuân theo mù quáng đối với các tuyên bố ban đầu gây hiểu lầm.
Các thí nghiệm RL có kiểm soát cho thấy rằng các mô hình cơ bản phát triển hành vi giao tiếp một cách tự phát khi được thưởng chỉ vì độ chính xác của lý luận.
Các mô hình được tinh chỉnh với cấu trúc giao tiếp học nhanh hơn so với những mô hình được tinh chỉnh với lý luận giống như độc thoại, đặc biệt trong các giai đoạn đào tạo ban đầu.
...

Hàng đầu
Thứ hạng
Yêu thích
