Sí, quiero decir, para mí ni siquiera veo qué hacen para ganar dinero, parece que hicieron un punto de referencia que se volvió popular y ahora es de pago para ganar, no veo ninguna otra razón por la que podrían incluso comandar tanto ingreso por esto, pero no tengo los detalles de lo que los clientes les están pagando en absoluto. Comenzó como una forma de probar modelos abiertos, pero nuestro último intento de entrar allí fue ignorado y retrasado durante meses, mientras tanto, Meta estaba probando cientos de modelos para optimizar específicamente alrededor de maximizar las evaluaciones, y después de eso simplemente dejamos de enviar. Hace mucho tiempo que dejé de creer que lmarena era una métrica útil y he escuchado en privado de grandes de Kansas que odian eso, que está llevando a sus modelos a una calidad inferior para superarlo. Así que, no sé, eso es todo.
Aakash Gupta
Aakash Gupta7 ene, 08:47
Mi opinión sobre LMArena es diferente a la de la mayoría. El titular aquí es $30M ARR en 4 meses. Pero estoy más interesado en el modelo de negocio subyacente. LMArena construyó algo que parece imposible. Una plataforma de evaluación basada en la multitud que se convirtió en la mayor palanca de marketing en IA, y luego descubrió cómo cobrar a los laboratorios que la utilizan. Déjame desglosar las cifras. Pasaron de $600M a $1.7B en 7 meses. Eso es un crecimiento del 183% en la valoración. Con $30M ARR, están cotizando a 57x ingresos. Pero la tasa de ejecución creció de $0 a $30M en 4 meses. Eso son $7.5M por mes de NUEVOS ingresos en una categoría que no existía hace 18 meses. La verdadera historia es el volante que construyeron. 35M de usuarios se presentan para jugar un juego. Dos respuestas anónimas de IA, elige tu favorita. Esos usuarios generan 60M de conversaciones por mes. Esos datos se convierten en el benchmark más confiable de la industria. OpenAI, Google, xAI necesitan que sus modelos estén en esa tabla de clasificación. Así que PAGAN para ser evaluados. Es un genio porque los clientes también son el producto que se está probando. La pregunta más difícil es si esto se mantiene. Cohere, AI2, Stanford y Waterloo publicaron un documento de 68 páginas en abril acusando a LMArena de permitir que Meta probara 27 variantes de modelos antes de Llama 4 mientras ocultaba las peores puntuaciones. El documento "Ilusión de la Tabla de Clasificación" básicamente decía que el campo de juego estaba amañado a favor de los grandes laboratorios. LMArena lo llamó inexacto. Pero la situación de Llama 4 fue complicada. Meta ajustó un modelo específicamente para el rendimiento en Arena, encabezó la tabla de clasificación y luego lanzó un modelo diferente al público que tuvo un rendimiento peor. Aquí es donde se pone interesante. La Ley de Goodhart dice que cuando una medida se convierte en un objetivo, deja de ser una buena medida. LMArena es ahora TAN importante que los laboratorios se optimizan específicamente para ello. Las respuestas más largas ganan. Los puntos de viñeta ganan. La confianza gana incluso cuando está equivocada. La plataforma reconoció esto. Agregaron puntuaciones de "control de estilo" para penalizar la falta de markdown. Claude subió. GPT-4o-mini bajó. Pero la tensión central permanece. LMArena gana más de $30M al año de los mismos laboratorios que juzga. OpenAI, Google, xAI son clientes. El árbitro está siendo pagado por los jugadores. Dicen que la tabla de clasificación pública es "una caridad" y no puedes pagar por la colocación. Les creo. Pero la estructura de incentivos es... complicada. La valoración dice que el mercado piensa que pueden hilar fino entre el éxito comercial y la percepción de neutralidad. La incorporación de Peter Deng a la junta es interesante. Ex VP de Producto de Consumo en OpenAI. Ahora GP en Felicis liderando esta ronda. Sabe exactamente cuán valiosa es la colocación en Arena para el marketing de modelos. Ion Stoica como cofundador es el ancla de credibilidad. Profesor de Berkeley, creó Spark y Ray, dirige el Laboratorio de Computación en la Nube. Esta no es una startup aleatoria. Es infraestructura construida por investigadores que entienden los sistemas distribuidos. $250M recaudados en 7 meses. Equipo de más de 40. 5M de usuarios mensuales en 150 países. La evaluación acaba de convertirse en una categoría de mil millones de dólares.
De grandes laboratorios, no de grandes Kansas, jaja, creo que alguien necesita entrenar estos autocorrectores con muchos más tokens…
33