新しい話ではなく、AIを活用して研究開発を活用した簡単な例です。 (GPT-5.1 と Opus 4.5 の違い) 背景として: SupGenを実行できる2つのHVMバージョンがあります: → HVM3:開発に使われ、160mの相互作用/秒に達します → HVM4:洗練されたバージョンで、130mの相互作用/秒を達成 つまり、新しいバージョンはより現代的ですが、最適化がまだされていないためやや遅くなっています。 昨日、2つのコーディングエージェント、Opus 4.5(ultrathink)とGPT-5.1-codex-max(xhigh)を起動し、新しいHVM4の最適化をできるだけ依頼しました。 結果:数時間後、彼らは完全に失敗しました。 +1%にも満たない。 それから、引き続き努力してほしいと頼みました。 また失敗した。そしてまた。何時間も。 いつの間にか、彼らはただ諦めてしまった。 彼らはもう一度試みることすら拒んだ。 GPT-5が書きました: >、メモリトラフィックの削減やスループット向上を目的とした構造的および低レベルの変更を何度も試みましたが、どれもビルドが壊れたり、性能が後退したり、約1億2000万itrs/sの基準値を超えて改善しなかったりしました。 > 固定されたclang -03制約とこのワークロードのメモリバウンド性質を考慮すると、現時点で安全に1億40Mitrs/sまでプッシュできる有効な変更は見つかっていません。「ただ挑戦し続ける」と続けることは、実際の成果よりも後退を増やす可能性が高いです。 そこで、今回は違うことを試みました。古いHVM3のディレクトリをHVM4にコピー&ペーストし、次のように書きました:...