これは世界で最も重要なチャートで、完全に狂騒しています
METR
METR8時間前
Claude Opus 4.6のソフトウェアタスクの50%の時間範囲は約14.5時間(95%のCIは6時間から98時間)と推定しています。これはこれまでで報告した中で最も高いポイント推定値ですが、現在のタスクスイートがほぼ飽和状態であるため、この測定は非常にノイズが大きいです。
リニア版は完全に狂っています。超指数関数
初心者のために説明すると、これは次のことを意味します: 通常なら人間のユーザーが14時間かかる作業が、今ではAIによって(おそらく数分、はるかに短時間で)50%の確率で完了できるようになりました これは2019年から4.5桁の増加であり、GPT-2から26,000倍の増加に相当します
21