Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Đây là bản Digest Nghiên cứu Ritual của tuần này, một bản tin bao quát những điều mới nhất trong thế giới LLM và giao thoa giữa Crypto x AI.
Với hàng trăm tài liệu được công bố hàng tuần, việc cập nhật những điều mới nhất là điều không thể. Chúng tôi làm việc đọc để bạn không phải làm.

Critique-RL: Huấn luyện các mô hình ngôn ngữ để phê bình thông qua học tăng cường hai giai đoạn
Bài báo này nhằm phát triển các mô hình ngôn ngữ phê bình không dựa vào sự giám sát mạnh mẽ hơn hoặc một hàm thưởng oracle trong quá trình kiểm tra.

Họ đề xuất Critique-RL, một phương pháp RL 2 giai đoạn, một phương pháp RL trực tuyến dựa trên tương tác giữa diễn viên và nhà phê bình để phát triển các mô hình phê bình.
Các thí nghiệm rộng rãi cho thấy phương pháp này vượt trội hơn các cơ sở, mang lại hiệu suất tốt hơn với Qwen 2.5 7B.

PACR: Phần thưởng tự tin tăng dần cho lý luận LLM
Công trình này đặt câu hỏi liệu có thể thu được sự giám sát từng bước từ mô hình hay không. Họ giới thiệu PACR, một tín hiệu nội tại dày đặc của mô hình chuyển đổi sự phát triển tự tin thành sự giám sát từng bước cho RL.



Họ phát hiện, giữa những điều khác, rằng sự gia tăng tự tin nhất quán có mối tương quan mạnh mẽ với độ chính xác của câu trả lời cuối cùng.
Trên nhiều tiêu chuẩn lý luận khác nhau, việc bổ sung RLVR với các phương pháp PACR cải thiện động lực đào tạo và hiệu suất cuối cùng.

Kết thúc việc giải mã thủ công: Hướng tới các mô hình ngôn ngữ thực sự đầu-cuối
Bài báo này đề xuất AutoDeco, một kiến trúc tạo ra một mô hình ngôn ngữ "đầu-cuối" có khả năng kiểm soát quá trình giải mã của chính nó. Họ bổ sung cho transformer các đầu dự đoán.

Các đầu AutoDeco sử dụng trạng thái ẩn hiện tại của mô hình để dự đoán các tham số lấy mẫu tối ưu cho token tiếp theo một cách linh hoạt.
Họ phát hành các đầu AutoDeco cho Deepseek-V3.1-Terminus, Qwen3-235B-A22B-Thinking-2507 và GPT-OSS-120 và xác thực với một số mô hình khác.


Mở rộng Lập luận Tiềm ẩn thông qua các Mô hình Ngôn ngữ Vòng
Bài báo này nhằm khám phá hành vi mở rộng của LoopLM trong nhiều khía cạnh khác nhau. Họ phát triển các mục tiêu mới để đào tạo tính toán hồi tiếp hiệu quả trong khi vẫn duy trì hiệu suất tối đa.

Họ đào tạo hai mô hình, LoopLMs với 1.4B và 2.6B tham số trên 7.7T token, đạt hiệu suất tương đương với các transformer tiêu chuẩn 4B và 8B trên hầu hết các tiêu chuẩn, đạt được cải thiện hiệu quả tham số 2-3×.
Họ cũng khám phá lý do tại sao các transformer lặp lại lại tốt hơn.

Cuộc thi Công cụ Decathlon: Đánh giá các tác nhân ngôn ngữ cho việc thực hiện nhiệm vụ đa dạng, thực tế và dài hạn
Giới thiệu một tiêu chuẩn để đánh giá các tác nhân ngôn ngữ. TOOLATHLON được xây dựng dựa trên các kịch bản thực tế yêu cầu nhiều ứng dụng.

TOOLATHLON yêu cầu, trung bình, 4–6 giờ làm việc của một sinh viên nghiên cứu tốt nghiệp chuyên ngành CNTT.
Sonnet 4.5, GPT-5 và Grok4 hoạt động tốt. Họ quan sát thấy sự khác biệt đáng kể giữa tỷ lệ thành công Pass@3 và Passˆ3, cho thấy khả năng bao phủ nhưng có vấn đề về tính nhất quán.

Theo dõi chúng tôi @ritualdigest để biết thêm về tất cả các vấn đề liên quan đến nghiên cứu crypto x AI, và
@ritualnet để tìm hiểu thêm về những gì Ritual đang xây dựng.
3,91K
Hàng đầu
Thứ hạng
Yêu thích

