Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Rất hào hứng khi chia sẻ nghiên cứu gần đây của chúng tôi về AutoJudge, một kỹ thuật giải mã kết hợp:
- Tăng tốc độ suy diễn thông qua việc nới lỏng ràng buộc khớp phân phối
- Dễ sử dụng và khả năng mở rộng nhờ vào một giao thức đào tạo tự giám sát
Trình bày tại #NeurIPS2025 hôm nay! (1/9)

Chúng tôi nhận thấy rằng chúng tôi có thể tự động khai thác các nhãn cho bộ phân loại chấp nhận. Cụ thể, chúng tôi lấy một tập dữ liệu và thực hiện các thế hệ mô hình mục tiêu và bản nháp.
Sau đó, chúng tôi kiểm tra tất cả các token không khớp giữa các mô hình mục tiêu và bản nháp. Nếu việc giữ lại token từ mô hình bản nháp dẫn đến câu trả lời sai, nó sẽ được đánh dấu là quan trọng (3/9)

Sử dụng những nhãn này, chúng ta có thể huấn luyện một bộ phân loại đơn giản để tìm các token quan trọng trong thời gian suy diễn.
Nếu việc giải mã suy đoán ban đầu từ chối một token, chúng ta sẽ cho nó một cơ hội thứ hai bằng cách hỏi bộ phân loại. Đối với các token không quan trọng, chúng ta tiếp tục quá trình sinh, nhưng đối với những token khác, chúng ta bắt đầu một chu kỳ suy đoán mới (4/9)

Các đánh giá chính của chúng tôi về AutoJudge tập trung vào các nhiệm vụ mà dễ dàng đo lường độ chính xác của câu trả lời — lập trình (LiveCodeBench) và toán học (GSM8K).
Với các cặp mô hình như 8B/70B, chúng tôi có thể đạt được tới 40 token được chấp nhận mỗi chu kỳ với độ chính xác <1%! (5/9)

AutoJudge cũng dễ dàng tích hợp với các khung suy diễn mã nguồn mở như vLLM. Cải thiện tỷ lệ chấp nhận dẫn đến tăng tốc độ từ đầu đến cuối: nếu chúng ta hy sinh 2% độ chính xác, chúng ta có thể nhận được gần 50% nhiều token hơn mỗi giây! (6/9)

Việc kiểm tra các chú thích cho các token quan trọng tiết lộ một mẫu kỳ lạ: các lỗi rõ ràng được đánh dấu là mẫu tiêu cực (=> cần phải tái tạo), trong khi các token tương đương về mặt ngữ nghĩa cho phép suy đoán tiếp tục (7/9)

Để tìm hiểu thêm, hãy xem:
Tài liệu:
Mã:
Bài viết trên blog:
Các kích hoạt đã được tính toán trước cho GSM8K & LiveCodeBench:
(8/9)
Công việc này được dẫn dắt bởi các đồng tác giả tuyệt vời của tôi @garipovroma, @MightyNeighbour, Ivan Ermakov, Ruslan Svirschevski, và Vage Egiazarian.
Nhóm đang ở San Diego cho NeurIPS tuần này — hãy đến chào chúng tôi hôm nay tại phiên trình bày poster!
4:30 chiều, poster #2010 (9/9)
2,5K
Hàng đầu
Thứ hạng
Yêu thích

