LMARENAは世界的に有名な大型モデルコンペティションリストで、2023年半ば以降に大型モデルリストのトップに立ったすべてのモデルをカウントしています GPT-4以降、モデルは平均して約35日間しかNo.1の地位にとどまることができません。 半年でも1年でも、1か月以上は新しいモデルに超えられるでしょう。 さらに誇張されているのは、多くのモデルがトップ5から5ヶ月ほどで脱落し、7ヶ月でトップ10を維持するのも難しいことです。 具体的な例を見ることでより効果的です: かつて美しかったO1は現在#56にランクされています。 当時「最も強力な推論モデル」と見なされていたClaude 3 Opusは#139に下がっています かつては以下の通りでした: トップモデルは話題にされ、「リーディングジェネレーション」製品と見なされています 誰も長くリストのトップに立つことはできず、アドバンテージウィンドウは「月」単位に圧縮されています。 次世代に平均35日で上回られるモデルは、一部のAI製品の反復サイクルを上回ることさえあります... 😄 これは重要な意味を持ちます:モデルの基本的な機能は、ほとんどの製品の反復サイクルよりもさらに速く向上しているということです。 積層はモデルの能力によって「逆フラット化」されています。