Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nói rằng deepseek đã xây dựng moe dựa trên mixtral là vô lý, vì tài liệu về deepseek moe được công bố chỉ 3 ngày sau khi tài liệu mixtral được đăng trên arxiv.
Ngoài ra, tài liệu mixtral thực sự không có chi tiết nào về việc huấn luyện, vì vậy "chúng tôi đã phát hành gần như mọi thứ cần thiết để xây dựng loại kiến trúc này" cũng là sai, tài liệu chỉ nói "chúng tôi sử dụng kiến trúc google gshard với định tuyến đơn giản hơn và moe ở mỗi lớp" và không có chi tiết nào về dữ liệu, siêu tham số, token huấn luyện, ablation, v.v..
Kiến trúc mà deepseek moe sử dụng thực sự khác với gshard và thưa thớt hơn (deepseek moe thậm chí không trích dẫn mixtral trong tài liệu, mà là gshard).
Không nói rằng mixtral không có ảnh hưởng đến moe, nhưng những gì được nói trong cuộc phỏng vấn này có phần viết lại câu chuyện để nói "nhưng nhìn xem, china/deepseek cũng đang sao chép mistral!"

Hàng đầu
Thứ hạng
Yêu thích
