はい、私には彼らがどうやってお金を稼いでいるのか全く分かりません。人気を博したベンチマークを作ったのに、今はペイ・トゥ・ウィンになってしまったような感じです。これでこれほどの収益を上げられる理由は他に見当たりませんが、顧客が何にお金を払っているのかの詳細は全く分かりません。 最初はオープンモデルのテストとして始まりましたが、最後の挑戦は無視され、数ヶ月も遅れました。その間、メタは評価を最大化するために何百ものモデルをテストし、その後は提出をやめました。私はずっと前にlmarenaが有用な指標だと信じるのを諦めましたし、カンザス州の大手からは、このツールが嫌いで、モデルの品質を下げてしまい、それに勝つためにモデルを落としていると個人的に聞いています。というわけで、わからないけど、それだけだ
Aakash Gupta
Aakash Gupta1月7日 08:47
私のLMArenaに対する見解は多くの人とは違います。 ここでの見出しは、4か月で3,000万ドルのARRだ。しかし、私はむしろその下にあるビジネスモデルに興味があります。 LMArenaは不可能に感じるものを作り上げました。クラウドソースによる評価プラットフォームで、AIにおける最大のマーケティングレバーとなり、それを使ってラボに料金を課す方法を見つけ出しました。 計算を分解させてください。 7か月で6億ドルから17億ドルに膨れ上がりました。これは183%の評価成長率です。ARRは3,000万ドルで、売上高は57倍です。しかしランレートは4か月で0ドルから3000万ドルに上昇しました。 これは18ヶ月前には存在しなかったカテゴリーで、月間750万ドルの新規収益に相当します。 本当の物語は彼らが作ったフライホイールです。 3500万人のユーザーがゲームをプレイするために集まります。匿名のAI回答が2つあります。お気に入りを選んでください。これらのユーザーは月に6,000万件の会話を生み出しています。そのデータは業界で最も信頼されるベンチマークとなります。OpenAI、Google、xAIは、自分たちのモデルがリーダーボードに載ることを望んでいます。つまり、評価を受けるために支払っているのです。 これは天才的で、顧客はテスト対象の製品でもあります。 より難しい問題は、これが成り立つかどうかです。 Cohere、AI2、スタンフォード、ウォータールーは4月に68ページの論文を発表し、LMArenaがLlama 4の前に27のモデルバリアントをテストさせ、最悪のスコアを隠していると非難しました。「リーダーボード・イリュージョン」という論文は、競争の場が大規模な研究所に有利に仕組まれていると言っていました。 LMArenaはそれを不正確だと指摘しました。しかし、ラマ4の件は混乱していました。MetaはArenaのパフォーマンス専用モデルをチューニングし、リーダーボードでトップに立ちましたが、その後、パフォーマンスが悪い別のモデルを一般向けにリリースしました。 ここからが興味深いところです。 グッドハートの法則は、ある措置が標的になった時点で、それは良い措置ではなくなると言っています。LMArenaは今や非常に重要で、ラボはそれに特化して最適化しています。長い回答が勝ちます。ポイントが勝ちます。間違っても自信は勝つ。 プラットフォームもこれを認めました。彼らはマークダウンの不当さにペナルティを与えるために「スタイルコントロール」スコアを追加しました。クロードが前に出た。GPT-40-miniは下に移動しました。 しかし、核心的な緊張感は残っています。 LMArenaは同じ研究所から年間3,000万ドル+の収益を得ています。OpenAI、Google、xAIは顧客です。審判は選手から報酬を受け取っています。 彼らは公開リーダーボードを「チャリティ」と呼び、配置料を支払うことはできません。私は彼らを信じています。でもインセンティブの仕組みは...複雑だった。 評価額によると、市場は商業的成功と中立性の間をうまく行き来できると考えています。 ピーター・デンが取締役会に加わったのは興味深いことです。OpenAIの元コンシューマープロダクト担当副社長。今回はGPアットフェリシスがリードしています。彼はアリーナの配置がモデルマーケティングにとってどれほど価値があるかを正確に理解しています。 共同創業者のイオン・ストイカが信頼性の基盤です。バークレーの教授で、SparkとRayを創設し、Sky Computing Labを運営しています。これはランダムなスタートアップではありません。分散システムを理解する研究者によって構築されたインフラです。 7ヶ月で2億5千万ドルを集めた。40+人のチーム。150か国で月間500万人のユーザー数を誇ります。 評価は最近、数十億ドル規模のカテゴリーになりました。
カンザス州の大手ラボからではなく、大きなラボからです(笑)もっと多くのトークンで自動修正を訓練する必要があると思います...
20