Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Gần đây tôi không theo dõi sát sao việc huấn luyện sau, nhưng có vẻ như DeepSeek đang đi theo hướng không tuân thủ các chuẩn mực của cộng đồng: - vẫn sử dụng GRPO, nhưng thay vì chỉ có phần thưởng có thể xác minh, sử dụng các mô hình phần thưởng đúng nghĩa - không chỉ cắt giảm cao hơn + vẫn giữ lại thuật ngữ KL-divergence, mà còn sửa chữa nó từ các nguyên lý cơ bản bằng cách sử dụng ước lượng K3 năm 2020 từ Schulman và các cộng sự. - không chuyển sang fp32 trong quá trình suy diễn hoặc thêm các hạt nhân không thay đổi theo lô như Thinky, và không ám ảnh về các đặc điểm ngoài chính sách – thay vào đó thêm một mặt nạ nhị phân sử dụng KL-div như một ngưỡng cho các mẫu âm nghi ngờ, để mô hình học từ những sai lầm của chính nó với một tín hiệu mạnh hơn - giữ nguyên việc định tuyến chuyên gia, top-k và top-p trong quá trình suy diễn như trong huấn luyện

Hàng đầu

Thứ hạng

Yêu thích