DeepSeekの研究がほとんど無視されているのは面白いです。彼らは業界を無理やり、効率的なMoEと効率的な強化学習の世界に引きずり込んだが、それだけだった。なぜ全員がまだ全注意力を教えていないのでしょうか?Math-V2の手法は採用されていますか?いいえ。「クジラの重りをちょうだい」
Ahmad
Ahmad1月10日 11:53
あのV4スーンクジラはやめてくれ
(もちろんV4も欲しいです)
207