ひざまずいて最新のdeepseek記事を読んでください() 表面的な理解を取れば、皆が間違っているところを正していきます この調査(mHC)は、本質的にAI業界向けに「低コスト・高リターン」のモデルアップグレードソリューションを提供します。 モデル効果:「思考能力」を大幅に強化 より賢く:mHCはモデルのインフラを変更することなくAIの処理能力を大幅に向上させます。 BBHやDROPのように論理的推論や読解力を反映したテストでは、パフォーマンスが2.1%から2.3%に向上します。 つまり、複雑なビジネスロジックや財務分析などのタスクを扱う際、モデルは「リピーター」というより「エキスパート」のように振る舞うことになります。 トレーニングコスト:非常に低いパフォーマンス損失と高い収益性を得てコスト効率:この新技術は情報の伝送幅を拡大しますが、ソフトウェアとハードウェアの深い協働最適化を通じて、270億のパラメータを持つ大規模モデルを実際に訓練する時間費は約6.7%しか増加しません。 投資家にとっては、ごくわずかな追加の電力と計算能力の投資を、より高次のモデル性能と交換することを意味します。 トレーニングの安定性:「トレーニング崩壊」による資産損失を避け、死んだマシンに別れを告げる:HCのような類似の試みも情報ルートの拡充を試みていますが、制約が少ないため、大規模モデルはトレーニング中に「暴走」したりクラッシュ(損失ジャンプ)したりし、貴重な計算資源の無駄遣いを招きます。 mHCは数学的な「バランス呪文」(多様体制約)を用いて、トレーニング中にモデルが非常に堅牢であることを確保し、高価な計算能力投資をシステム的な崩壊から守ります。 メモリ要件:「ハードウェアのボトルネック」に対するアルゴリズムによる巧妙な解決策 賢いメモリ活用:この技術は情報の「レーン」を4倍に広げ、理論上は多くのメモリを消費します。 しかしDeepSeekは「選択的再計算」と呼ばれる技術により、わずかな計算時間を短縮しながら多くのメモリ容量を節約します。 これにより、H100/H200のような既存のハイエンドグラフィックスカードは、ハードウェアコストを増加させることなく、より複雑なアーキテクチャを動作させることが可能になります。 将来の可能性:「ヒープマシン」の従来の上限を破る新たな成長ポイント:これまでモデル効果の改善は主に「ヒープデータ」と「ヒープGPU」に依存していました。 mHCは第三の道を開き、モデルの内部骨格の最適化を図ります。 これは、レイヤー間の接続を改善することで、モデルサイズを盲目的に増やさなくても、より多くのパフォーマンスボーナスを継続的に抽出できることを証明しています。 投資家の視点からの類推:もし大型モデルが工場であれば、前のアップグレードは労働者数の増加(パラメータの増加)でした。 一方、mHCはワークステーション数を増やすことなく、工場の組立ラインや物流チャネルを再効率化します。 コンベヤーベルトを複数回拡幅して部品を輸送するだけでなく、高度な交通管理システムによって物流の混雑による生産停止を防ぐことも確保しています。 その結果、プラントの効率が大幅に向上し、電力や機器の保守コストはほぼ変わらないままです。
「mHCはAIのメモリ要件を根本的に減らすわけではありませんが、マルチストリーム設計によりメモリ負荷を増加させます」 @rickawsbこのmHCは理論的にはもっとメモリが必要だと見ました
527