A minha leitura sobre a LMArena é diferente da maioria. A manchete aqui é $30M ARR em 4 meses. Mas estou mais interessado no modelo de negócio por trás. A LMArena construiu algo que parece impossível. Uma plataforma de avaliação crowdsourced que se tornou a maior alavanca de marketing em IA, e depois descobriu como cobrar os laboratórios que a utilizam. Deixe-me explicar os números. Eles passaram de $600M para $1.7B em 7 meses. Isso é um crescimento de 183% na avaliação. Com $30M ARR, estão a negociar a 57x receita. Mas a taxa de execução cresceu de $0 para $30M em 4 meses. Isso é $7.5M por mês de NOVA receita numa categoria que não existia há 18 meses. A verdadeira história é o ciclo que eles construíram. 35M de usuários aparecem para jogar um jogo. Duas respostas anônimas de IA, escolha a sua favorita. Esses usuários geram 60M de conversas por mês. Esses dados tornam-se o benchmark mais confiável da indústria. OpenAI, Google, xAI precisam que seus modelos estejam nesse ranking. Portanto, eles PAGAM para serem avaliados. É genial porque os clientes também são o produto que está a ser testado. A pergunta mais difícil é se isso se mantém. Cohere, AI2, Stanford e Waterloo lançaram um artigo de 68 páginas em abril acusando a LMArena de permitir que a Meta testasse 27 variantes de modelo antes do Llama 4, enquanto escondia as piores pontuações. O artigo "Ilusão do Ranking" basicamente disse que o campo de jogo estava manipulado a favor dos grandes laboratórios. A LMArena chamou isso de impreciso. Mas a situação do Llama 4 foi confusa. A Meta ajustou um modelo especificamente para o desempenho na Arena, liderou o ranking, e depois lançou um modelo diferente ao público que teve um desempenho pior. Aqui é onde fica interessante. A Lei de Goodhart diz que quando uma medida se torna um alvo, deixa de ser uma boa medida. A LMArena é agora TÃO importante que os laboratórios otimizam especificamente para isso. Respostas mais longas ganham. Pontos em lista ganham. Confiança ganha mesmo quando errada. A plataforma reconheceu isso. Eles adicionaram uma pontuação de "controle de estilo" para penalizar a má formatação. Claude subiu. GPT-4o-mini desceu. ...