Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
một mô hình mạnh có thể học kém hơn khi gặp những thứ khó khăn khi nó trở nên tự tin hơn.. vì những câu trả lời sai của nó bị đẩy xuống thấp đến mức độ mà các gradient gần như biến mất
wmss đảo ngược vòng lặp: bạn huấn luyện mô hình mạnh chống lại checkpoint yếu hơn trước đó của chính nó, không chỉ dựa vào các dự đoán hiện tại của nó
checkpoint yếu vẫn gán xác suất không tầm thường cho những câu trả lời hợp lý nhưng sai.. việc huấn luyện trên phân phối mềm hơn đó buộc mô hình mạnh phải tiếp tục phân tách đúng khỏi gần đúng, thay vì chỉ làm bóng bẩy những gì nó đã tin
bài báo báo cáo những cải tiến có ý nghĩa trong toán học + lập trình, với những nâng cấp lớn hơn trên các bộ khó hơn.. nhưng nó đã được thử nghiệm với khoảng 4b đến 8b tham số, không phải quy mô tiên tiến (vì vậy tôi không coi đây là điều đã được giải quyết)
hệ quả chưa được thảo luận nhiều: mỗi phòng thí nghiệm nghiêm túc đều đã có một nghĩa địa của các checkpoint trung gian từ các lần chạy trước.. nếu học dựa trên yếu tố yếu giữ ở 70b+, các checkpoint "lãng phí" trở thành một nguồn tài nguyên huấn luyện mà bạn đã có sẵn
các mô hình mạnh dừng lại khi chúng ngừng nghi ngờ bản thân.. một cách thực tiễn để tiến lên có thể là khiến chúng tranh luận với chính mình trong quá khứ 👀
liên kết đến bài báo: arxiv. org/abs/2602.08222

Hàng đầu
Thứ hạng
Yêu thích
