Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

jack morris
nghiên cứu @meta @cornell // mô hình ngôn ngữ, lý thuyết thông tin, khoa học AI
đây là một số thông tin miễn phí:
nếu chúng ta thực hiện RL quá lâu sau khi huấn luyện trước, chúng ta chắc chắn sẽ ghi đè các tham số và bắt đầu quên đi những điều đã học
trong bài báo gốc về instructGPT, mô hình tốt nhất của họ đã kết hợp RLHF với các gradient huấn luyện trước để tránh chính vấn đề trôi mô hình này
nhưng không ai làm điều này nữa. chắc chắn, đó là một cách cụ thể (trộn gradient) của một ý tưởng rộng hơn (tránh quên) nhưng có vẻ như đây là một dòng suy nghĩ bị bỏ qua rất nhiều khi chúng ta thực hiện ngày càng nhiều bước RL
ví dụ, xem bài báo ProRL gần đây. họ đang thực hiện hơn 1000 bước GRPO bây giờ với một tỷ lệ học không tầm thường và không có hình phạt cho việc lệch khỏi mô hình gốc. các mạch được xây dựng bên trong mô hình trong quá trình huấn luyện trước chắc chắn đang bắt đầu suy giảm. và nếu không, chúng sẽ suy giảm sau 10k hoặc 100k bước RL
tôi nghi ngờ rằng ý tưởng này sẽ quay trở lại vào một lúc nào đó; họ có lẽ đã thực hiện điều này tại các phòng thí nghiệm lớn.



51,13K
điều này có vẻ rất quan trọng:
hoàn toàn có khả năng rằng một mô hình có thể đạt được IMO gold mà không cần *bất kỳ* học tăng cường nào, với một prompt được thiết kế hoàn hảo
chúng ta chỉ không biết, và thiếu công cụ để tìm kiếm hiệu quả trong không gian prompt. Rất vui khi thấy ít nhất có ai đó đang cố gắng

Lakshya A Agrawal29 thg 7, 2025
Tối ưu hóa prompt so với các thuật toán RL như GRPO thì như thế nào?
GRPO cần hàng nghìn lần chạy thử, nhưng con người có thể học từ một vài lần thử—bằng cách suy ngẫm về những gì đã hiệu quả & những gì không.
Gặp gỡ GEPA: một trình tối ưu hóa prompt phản chiếu có thể vượt trội hơn GRPO tới 20% với 35 lần chạy thử ít hơn!🧵

36,2K
tình huống giả định -
tôi là một công ty AI đã giảm chi phí chuyển giao và lưu trữ các mô hình xuống bằng không. tôi có thể phục vụ mỗi người dùng mô hình riêng của họ mà không có chi phí phụ
tôi nên làm gì? trực tiếp SFT các mô hình cụ thể cho người dùng trên dữ liệu của họ? hay RLHF dựa trên đánh giá của cuộc trò chuyện? hay một cái gì đó khác?
16,57K
não người dự trữ 40% khả năng xử lý của nó chỉ dành riêng cho thị giác. các LLM hiện đại bằng cách nào đó đã phát triển mà không có điều này hoàn toàn.

jack morris29 thg 7, 2025
thật bất ngờ khi mười lăm năm nghiên cứu về thị giác máy tính cứng rắn không đóng góp ~gì cho AGI ngoài việc cải thiện các bộ tối ưu hóa
chúng ta vẫn chưa có những mô hình trở nên thông minh hơn khi chúng ta cho chúng đôi mắt
44,21K
Hàng đầu
Thứ hạng
Yêu thích
Onchain thịnh hành
Thịnh hành trên X
Ví funding hàng đầu gần đây
Được chú ý nhất