Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek R1 có thể là lần đầu tiên một hiện vật chính xác nhận được ba báo cáo kỹ thuật khác nhau – bản gốc, bài báo *Nature*, và một bản sửa đổi đầy đủ. Nhiều kỹ thuật được giải thích ở đây, cơ sở hạ tầng, các gợi ý… Nhưng người chiến thắng lớn nhất? @TheZvi! Họ *thực sự* nhận thức rằng an toàn là một vấn đề.


15:39 7 thg 1
Bài báo của DeepSeek-R1 đã được cập nhật cách đây 2 ngày, mở rộng từ 22 trang lên 86 trang và thêm một lượng lớn chi tiết.
Nội dung mới đề cập đến các chủ đề như sự tự tiến hóa của DeepSeek-R1-Zero, đánh giá DeepSeek-R1, phân tích thêm, và chưng cất DeepSeek-R1.
DeepSeek-R1: Khuyến khích khả năng lý luận trong LLMs thông qua học tăng cường
Bài báo:


Vào ngày 31 tháng 1, @EpochAIResearch đã đưa ra một ước tính về chi phí của RL đã được đưa vào R1. Kể từ bài báo trên Nature, chúng tôi đã biết rằng điều đó gấp 3 lần tổng ngân sách. Sai ở chỗ nào?
- Giả định Batch = 1024 & Kích thước nhóm = 64, như trong DeepSeekMath. Thực tế: B=512, G=16.
- chỉ 1700 bước cho R1.


@EpochAIResearch tất nhiên @EgeErdil2 đã được hiệu chỉnh tốt và cẩn thận về mặt tri thức nên anh ấy biết chính xác điều gì có khả năng xảy ra.

@EpochAIResearch @EgeErdil2 Tôi nghĩ điều Ege đã làm sai là đánh giá thấp rằng họ đã rất rõ ràng rằng nó không thành công trên các mô hình nhỏ (họ chia sẻ nhiều chi tiết hơn bây giờ; r1-lite-preview có lẽ là Qwen2.5-32B). Do đó, V3 hiệu quả hơn nhiều về mẫu.
Một prior ở cấp độ meta thì thú vị hơn. Họ có bị tụt lại không?


826
Hàng đầu
Thứ hạng
Yêu thích
