Opus 4.5に対して最新のBox AI高度推論評価を中高努力で実施したところ、Opus 4.1より20ポイントの上昇が見られました。驚くべきことに、Opus 4.1は発売されてまだ3ヶ月しか経っていません。 この評価は、知識労働者が企業文書で行う個別のタスクとしての役割を近づけるものです。企業を分析するファイナンシャルアナリストや、クライアントのためにリサーチを行うコンサルタントかもしれません。 評価は、複雑なビジネスプロンプトにモデルがさまざまな基準でどのように応答するかを評価します。この評価はまだ初期段階であり、より幅広い業界やユースケースへと拡大していく予定です。 明らかなのは、これらの最新の推論モデルは、アップデートごとに経済的に有用な仕事をますます強化していくということです。これは最初はコーディングから始まりましたが、今後は医療、法律、金融サービス、製造業など多くの分野でも同様のアップグレードが見られます。