Мой взгляд на LMArena отличается от большинства. Заголовок здесь — $30M ARR за 4 месяца. Но меня больше интересует бизнес-модель, стоящая за этим. LMArena создала нечто, что кажется невозможным. Платформа для оценки, основанная на краудсорсинге, которая стала самым большим маркетинговым рычагом в AI, а затем выяснила, как взимать плату с лабораторий, использующих её. Позвольте мне разобрать математику. Они выросли с $600M до $1.7B за 7 месяцев. Это 183% роста оценки. При $30M ARR они торгуются по 57x выручке. Но темп роста увеличился с $0 до $30M за 4 месяца. Это $7.5M в месяц НОВОЙ выручки в категории, которой не существовало 18 месяцев назад. Истинная история — это маховик, который они построили. 35M пользователей приходят, чтобы сыграть в игру. Два анонимных ответа AI, выбери свой любимый. Эти пользователи генерируют 60M разговоров в месяц. Эти данные становятся самым надежным эталоном в отрасли. OpenAI, Google, xAI всем нужны их модели в этом рейтинге. Поэтому они ПЛАТЯТ, чтобы быть оцененными. Это гениально, потому что клиенты также являются продуктом, который тестируется. Сложнее вопрос, удержится ли это. Cohere, AI2, Стэнфорд и Ватерлоо выпустили 68-страничную статью в апреле, обвиняющую LMArena в том, что она позволила Meta протестировать 27 вариантов модели до Llama 4, скрывая худшие результаты. Статья "Иллюзия Рейтинга" в основном говорила, что игровое поле было подстроено под большие лаборатории. LMArena назвала это неточным. Но ситуация с Llama 4 была запутанной. Meta настроила модель специально для производительности Arena, возглавила рейтинг, а затем выпустила другую модель для публики, которая показала худшие результаты. Вот где становится интересно. Закон Гудхарта гласит, что когда мера становится целью, она перестает быть хорошей мерой. LMArena теперь ТАК важна, что лаборатории оптимизируют свои модели специально под неё. Длинные ответы выигрывают. Пункты выигрывают. Уверенность выигрывает, даже когда она неверна. Платформа признала это. Они добавили оценку "контроля стиля", чтобы наказывать за небрежность в разметке. Claude поднялся. GPT-4o-mini опустился. ...