我覺得有趣的是,DeepSeek 的研究大多被忽視。他們把整個行業拖進了高效的 MoEs 和高效的 RL 的世界,但就這樣。為什麼還沒有所有的全注意力 Instructs DSA?Math-V2 方法被採用嗎?沒有。「給我鯨魚的權重」
Ahmad
Ahmad1月10日 11:53
請快點放出那個 v4 鯨魚
(當然我也想要 V4)
613