Suy nghĩ Đa chiều
Một phương pháp phân nhánh và hợp nhất từ Microsoft Research và UPenn. Lấy mẫu K token mỗi bước thành một token đa chiều—tự thích ứng: các bước tự tin hoạt động như CoT, trong khi các bước không chắc chắn đại diện cho nhiều con đường. Vượt trội hơn CoT rời rạc với các chuỗi ngắn hơn.
RubricHub
Một tập dữ liệu rubric quy mô lớn với khoảng 110k trường hợp để đào tạo các mô hình sinh mở. Sử dụng một khung tự động từ thô đến tinh để tạo ra các tiêu chí đánh giá phân biệt cao, cho phép Qwen3-14B vượt qua GPT-5 trên HealthBench.
$A^3$-Bench
Một tiêu chuẩn mới đánh giá các cơ chế dựa trên bộ nhớ trong lý luận khoa học. Nó đo lường cách mà các mô hình kích hoạt "neo" (công thức cốt lõi) và "điểm thu hút" (mô hình/ ví dụ) trong quá trình suy diễn—vượt ra ngoài việc chỉ kiểm tra các câu trả lời cuối cùng.