Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

will brown
Phần thưởng hack @primeintellect
will brown đã đăng lại
Công thức để huấn luyện Qwen3 1.7B thành một mô hình DeepResearch
Điều gì có nghĩa là một cái gì đó nhỏ có thể suy nghĩ sâu sắc? Gặp gỡ Lucy, một Qwen3-1.7B đã được huấn luyện lại như một mô hình DeepResearch dựa trên các xác minh của @willccbb.
Phần thưởng dựa trên quy tắc chính:
- Độ chính xác của câu trả lời
Chúng tôi kiểm tra xem phản hồi cuối cùng có chứa câu trả lời đúng sự thật hay không. Việc so khớp chuỗi con này là rẻ và tránh việc gọi một LLM lớn hơn để đánh giá.
- Tỷ lệ truy cập/tìm kiếm
Nếu tác nhân truy cập ít nhất bằng số trang mà nó phát hành truy vấn tìm kiếm, nó nhận được ((tỷ lệ_truy_cập_tìm_kiếm - 1) / 4) ** 0.25. Nếu nó tìm kiếm nhiều hơn nó truy cập, điểm số là -0.5.
Định dạng / Phần thưởng chống hack:
- Thành công trong việc thực thi công cụ
Mỗi cuộc gọi API trả về mà không có lỗi đều được tính. Phần thưởng là (cuộc_gọi_thành_công * công_cụ_độc_nhất_sử_dụng) / tổng_số_cuộc_gọi_thử_nghiệm.
- Hiệu quả suy nghĩ
Một hình phạt lệch chuẩn tập trung ở 70 token ngăn cản chuỗi suy nghĩ vô tận giữa các cuộc gọi công cụ trong khi vẫn cho phép đủ token để lập kế hoạch.
Đây là cách Qwen3 1.7B học cách tìm kiếm, truy cập và tổng hợp thông tin. Các mô hình nhỏ cũng có thể thực hiện nghiên cứu sâu!
37,76K
Hàng đầu
Thứ hạng
Yêu thích
Onchain thịnh hành
Thịnh hành trên X
Ví funding hàng đầu gần đây
Được chú ý nhất