DeepSeekが最近発表した3本の論文はすべて梁文峰の署名入りで、論文の内容も非常に興味深いものです。 特にEngramに関する記事では、DeepSeekはモデルに「辞書」を持ち込むようなもので、難しい問題に丸暗記する脳容量を解放します。 しかし、もしモデルが記憶(エングラム)だけを目的としているなら、それは全く考えられない丸暗いオタクだと分かりました。 しかし、もしすべてが推論(MOE)だけなら、「中国の首都はどこか」のような固定知識を導き出すために多くの計算能力が無駄になります。 試験に持っていかなければならない記憶は何つありますか? DeepSeekは「記憶」と「思考」の黄金比モデルを開発しました。 最終的に測定された最良の比率は、思考が75%、記憶が25%でした。 この結論はモデルに適しているだけでなく、考える価値もあるかもしれません。 すべての詳細を覚えている人は、考える余地がないのと同じです。 論理的思考は、適切に抽象的なものであり、人類の進歩の源です。 知識が全くない人は、脳エネルギーを無駄にして最も基本的なことばかり考え、頭は空虚にしてしまいます。 DeepSeekは、思考を減らすために辞書を追加したことで、モデルが7層ネットワークに相当する追加の思考深度を持つことを測定しました。 意外にも、知識の幅広さはこのように思考の深さを増します。 とても感動的でした。