どうやらOpus 4.5にはヘンドリックの数学(テストセットを含む)が暗記されており、それまでのAIMEもすべて暗記されているようです。モデルは理由もなく即座に数字を出して80〜90%正解します。 数学データセットで実験するのが面倒になる...