Да, я имею в виду, что для меня я даже не вижу, что они делают, чтобы зарабатывать деньги, кажется, что они создали популярный бенчмарк, и теперь это платно для победы, я не вижу никаких других причин, по которым они могли бы зарабатывать так много, но у меня нет деталей о том, за что клиенты им платят. Это началось как способ тестирования открытых моделей, но наша последняя попытка попасть туда была проигнорирована и задержана на месяцы, в то время как Meta тестировала сотни моделей, чтобы оптимизировать их именно для максимизации оценок, и после этого мы просто перестали отправлять заявки. Я давно перестал верить, что lmarena — это полезная метрика, и слышал от крупных игроков из Канзаса, что им это не нравится, что это приводит к снижению качества их моделей, чтобы его обойти. Так что, не знаю, это все.
Aakash Gupta
Aakash Gupta7 янв., 08:47
Мой взгляд на LMArena отличается от большинства. Заголовок здесь — $30M ARR за 4 месяца. Но меня больше интересует бизнес-модель, стоящая за этим. LMArena создала нечто, что кажется невозможным. Платформа для оценки, основанная на краудсорсинге, которая стала самым большим маркетинговым рычагом в AI, а затем выяснила, как взимать плату с лабораторий, использующих её. Позвольте мне разобрать математику. Они выросли с $600M до $1.7B за 7 месяцев. Это 183% роста оценки. При $30M ARR они торгуются по 57x выручке. Но темп роста увеличился с $0 до $30M за 4 месяца. Это $7.5M в месяц НОВОЙ выручки в категории, которой не существовало 18 месяцев назад. Истинная история — это маховик, который они построили. 35M пользователей приходят, чтобы сыграть в игру. Два анонимных ответа AI, выбери свой любимый. Эти пользователи генерируют 60M разговоров в месяц. Эти данные становятся самым надежным эталоном в отрасли. OpenAI, Google, xAI всем нужны их модели в этом рейтинге. Поэтому они ПЛАТЯТ, чтобы быть оцененными. Это гениально, потому что клиенты также являются продуктом, который тестируется. Сложнее вопрос, удержится ли это. Cohere, AI2, Стэнфорд и Ватерлоо выпустили 68-страничную статью в апреле, обвиняющую LMArena в том, что она позволила Meta протестировать 27 вариантов модели до Llama 4, скрывая худшие результаты. Статья "Иллюзия Рейтинга" в основном говорила, что игровое поле было подстроено под большие лаборатории. LMArena назвала это неточным. Но ситуация с Llama 4 была запутанной. Meta настроила модель специально для производительности Arena, возглавила рейтинг, а затем выпустила другую модель для публики, которая показала худшие результаты. Вот где становится интересно. Закон Гудхарта гласит, что когда мера становится целью, она перестает быть хорошей мерой. LMArena теперь ТАК важна, что лаборатории оптимизируют свои модели специально под неё. Длинные ответы выигрывают. Пункты выигрывают. Уверенность выигрывает, даже когда она неверна. Платформа признала это. Они добавили оценку "контроля стиля", чтобы наказывать за небрежность в разметке. Claude поднялся. GPT-4o-mini опустился. Но основное напряжение остается. LMArena зарабатывает более $30M в год от тех же лабораторий, которые она оценивает. OpenAI, Google, xAI — это клиенты. Судья получает деньги от игроков. Они говорят, что публичный рейтинг — это "благотворительность", и вы не можете заплатить за размещение. Я им верю. Но структура стимулов... сложная. Оценка говорит о том, что рынок считает, что они могут пройти между коммерческим успехом и воспринимаемой нейтральностью. Присоединение Питера Дэна к совету — это интересно. Бывший вице-президент по потребительским продуктам в OpenAI. Теперь GP в Felicis, ведущий этот раунд. Он точно знает, насколько ценным является размещение в Arena для маркетинга модели. Ион Стойка как соучредитель — это якорь доверия. Профессор Беркли, создатель Spark и Ray, руководит Лабораторией Облачных Вычислений Sky. Это не случайный стартап. Это инфраструктура, созданная исследователями, которые понимают распределенные системы. $250M привлечено за 7 месяцев. Команда из более чем 40 человек. 5M пользователей в месяц в 150 странах. Оценка только что стала миллиардной категорией.
Из больших лабораторий, а не из большого Канзаса, лол. Думаю, кому-то нужно обучить эти автозамены на гораздо большем количестве токенов…
23