Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La mia opinione su LMArena è diversa dalla maggior parte.
Il titolo qui è $30M ARR in 4 mesi. Ma sono più interessato al modello di business sottostante.
LMArena ha costruito qualcosa che sembra impossibile. Una piattaforma di valutazione crowdsourced che è diventata il più grande leva di marketing nell'AI, poi ha capito come far pagare i laboratori che la utilizzano.
Lasciami spiegare i numeri.
Sono passati da $600M a $1.7B in 7 mesi. Questo è un aumento del 183% della valutazione. Con $30M ARR, stanno scambiando a 57 volte il fatturato. Ma il tasso di crescita è passato da $0 a $30M in 4 mesi.
Sono $7.5M al mese di NUOVO fatturato in una categoria che non esisteva 18 mesi fa.
La vera storia è il volano che hanno costruito.
35M di utenti si presentano per giocare a un gioco. Due risposte AI anonime, scegli la tua preferita. Quegli utenti generano 60M di conversazioni al mese. Quei dati diventano il benchmark più affidabile del settore. OpenAI, Google, xAI hanno tutti bisogno dei loro modelli su quella classifica. Quindi PAGANO per essere valutati.
È geniale perché i clienti sono anche il prodotto che viene testato.
La domanda più difficile è se questo reggerà.
Cohere, AI2, Stanford e Waterloo hanno pubblicato un documento di 68 pagine ad aprile accusando LMArena di aver lasciato Meta testare 27 varianti di modello prima di Llama 4 mentre nascondeva i punteggi peggiori. Il documento "Leaderboard Illusion" sostanzialmente affermava che il campo di gioco era truccato a favore dei grandi laboratori.
LMArena l'ha definito inaccurato. Ma la situazione di Llama 4 era complicata. Meta ha sintonizzato un modello specificamente per le prestazioni di Arena, ha dominato la classifica, poi ha rilasciato un modello diverso al pubblico che ha performato peggio.
Ecco dove diventa interessante.
La Legge di Goodhart dice che quando una misura diventa un obiettivo, smette di essere una buona misura. LMArena è ora COSÌ importante che i laboratori ottimizzano specificamente per essa. Risposte più lunghe vincono. I punti elenco vincono. La fiducia vince anche quando è sbagliata.
La piattaforma ha riconosciuto questo. Hanno aggiunto punteggi di "controllo dello stile" per penalizzare la scorretta formattazione. Claude è salito. GPT-4o-mini è sceso.
...
Principali
Ranking
Preferiti
