Đây là bản Digest Nghiên cứu Ritual của tuần này, một bản tin bao quát những điều mới nhất trong thế giới LLM và giao thoa giữa Crypto x AI. Với hàng trăm tài liệu được công bố hàng tuần, việc cập nhật những điều mới nhất là điều không thể. Chúng tôi làm việc đọc để bạn không phải làm.
Think-at-Hard: Các vòng lặp tiềm ẩn chọn lọc để cải thiện các mô hình ngôn ngữ lý luận Vòng lặp tiềm ẩn động là khó: nó cần ngữ cảnh đầy đủ, mục tiêu thích ứng, tái sử dụng tham số, nhưng sự kết hợp chất lượng chính sách gây ra sự không ổn định trong quá trình đào tạo.
Công trình này giới thiệu TaH, tư duy tiềm ẩn động mà chỉ lặp lại qua các token khó bằng cách phát triển một kiến trúc mô hình chuyên biệt và một phương pháp đào tạo ổn định, áp dụng có chọn lọc lặp lại tiềm ẩn. Được tinh chỉnh từ Qwen3-0.6/1.7B-Base, TaH đạt được +4% trên 5 tiêu chuẩn suy luận.
P1: Làm chủ các kỳ thi Vật lý Olympic với Học tăng cường Công trình này giới thiệu P1, một gia đình các mô hình lý luận vật lý mã nguồn mở. Chúng tích hợp cả việc mở rộng trong thời gian huấn luyện và thời gian kiểm tra, đảm bảo khả năng lý luận mạnh mẽ được triển khai một cách thích ứng trong quá trình suy diễn.
Các mô hình P1 được đào tạo hoàn toàn thông qua RL sau khi đào tạo trên các LM cơ bản trong một khung RL đa giai đoạn. Đối với thời gian kiểm tra, họ kết hợp các mô hình P1 với khung tác nhân PhysicsMinions. Mô hình P1-235B-A22B của họ đạt được hiệu suất huy chương vàng tại IPhO 2025.
MiroThinker: Đẩy ranh giới hiệu suất của các tác nhân nghiên cứu mã nguồn mở thông qua mô hình, bối cảnh và quy mô tương tác Bài báo giới thiệu một tác nhân nghiên cứu đẩy hiệu suất trên 3 chiều: kích thước mô hình, độ dài bối cảnh, & độ sâu tương tác.
Để duy trì các quá trình suy luận sâu, mô hình được trang bị một cửa sổ ngữ cảnh 256K và lên đến 600 lần gọi công cụ cho mỗi nhiệm vụ. MiroThinker v1.0, được trang bị một tác nhân ReAct đơn giản, đạt hiệu suất SOTA trong số các tác nhân nghiên cứu mã nguồn mở.
Cần gì để trở thành một tác nhân nghiên cứu AI tốt? Nghiên cứu vai trò của sự đa dạng trong ý tưởng Bài báo này đề xuất các phương pháp để định lượng và kiểm soát sự đa dạng trong ý tưởng của tác nhân. Sự lựa chọn khung tác nhân có ảnh hưởng đáng kể đến sự đa dạng trong ý tưởng.
Thông qua một thiết kế thí nghiệm có kiểm soát, họ thiết lập một mối quan hệ nguyên nhân, cho thấy rằng việc tăng cường sự đa dạng trong ý tưởng dẫn đến hiệu suất tốt hơn trong các nhiệm vụ MLE-bench. Họ cũng thiết lập tính ổn định khi được đánh giá bằng các chỉ số hiệu suất thay thế.
DR Tulu: Học Tăng Cường với Các Tiêu Chí Tiến Hóa cho Nghiên Cứu Sâu Bài báo này đào tạo nghiên cứu sâu Tulu (DR Tulu-8B) được đào tạo cho các nhiệm vụ nghiên cứu sâu mở và dài hạn.
Để giải quyết việc xác minh trong các nhiệm vụ dài hạn, DR-Tulu được tinh chỉnh trên dữ liệu người dùng chất lượng cao, và sau đó được đào tạo thông qua RL với các tiêu chí đang phát triển (RLER), trong đó các tiêu chí cùng phát triển với mô hình chính sách trong quá trình đào tạo. Họ đạt được kết quả tốt hơn so với các mô hình mở mạnh nhất 8-32.
Theo dõi chúng tôi @ritualdigest để biết thêm về tất cả các vấn đề liên quan đến nghiên cứu crypto x AI, và @ritualnet để tìm hiểu thêm về những gì Ritual đang xây dựng.
3,04K