Sì, intendo dire che per me non vedo nemmeno cosa facciano per guadagnare, sembra che abbiano creato un benchmark che è diventato popolare e ora è pay to win, non vedo alcun altro motivo per cui potrebbero persino comandare così tanto fatturato per questo, ma non ho dettagli su cosa i clienti stiano pagando loro. È iniziato come un modo per testare le vibrazioni dei modelli aperti, ma il nostro ultimo tentativo di entrare lì è stato ignorato e ritardato per mesi, mentre Meta testava centinaia di modelli per ottimizzare specificamente intorno al massimizzare le valutazioni, e dopo di ciò abbiamo semplicemente smesso di inviare. Ho smesso di credere che lmarena fosse una metrica utile molto tempo fa e ho sentito in privato da grandi Kansas che odiano quella cosa, che sta portando i loro modelli a una qualità inferiore per batterla. Quindi, non lo so, è tutto.
Aakash Gupta
Aakash Gupta7 gen, 08:47
La mia opinione su LMArena è diversa dalla maggior parte. Il titolo qui è $30M ARR in 4 mesi. Ma sono più interessato al modello di business sottostante. LMArena ha costruito qualcosa che sembra impossibile. Una piattaforma di valutazione crowdsourced che è diventata il più grande leva di marketing nell'AI, poi ha capito come far pagare i laboratori che la utilizzano. Lasciami spiegare i numeri. Sono passati da $600M a $1.7B in 7 mesi. Questo è un aumento del 183% della valutazione. Con $30M ARR, stanno scambiando a 57 volte il fatturato. Ma il tasso di crescita è passato da $0 a $30M in 4 mesi. Sono $7.5M al mese di NUOVO fatturato in una categoria che non esisteva 18 mesi fa. La vera storia è il volano che hanno costruito. 35M di utenti si presentano per giocare a un gioco. Due risposte AI anonime, scegli la tua preferita. Quegli utenti generano 60M di conversazioni al mese. Quei dati diventano il benchmark più affidabile del settore. OpenAI, Google, xAI hanno tutti bisogno dei loro modelli su quella classifica. Quindi PAGANO per essere valutati. È geniale perché i clienti sono anche il prodotto che viene testato. La domanda più difficile è se questo reggerà. Cohere, AI2, Stanford e Waterloo hanno pubblicato un documento di 68 pagine ad aprile accusando LMArena di aver lasciato Meta testare 27 varianti di modello prima di Llama 4 mentre nascondeva i punteggi peggiori. Il documento "Leaderboard Illusion" sostanzialmente affermava che il campo di gioco era truccato a favore dei grandi laboratori. LMArena l'ha definito inaccurato. Ma la situazione di Llama 4 era complicata. Meta ha sintonizzato un modello specificamente per le prestazioni di Arena, ha dominato la classifica, poi ha rilasciato un modello diverso al pubblico che ha performato peggio. Ecco dove diventa interessante. La Legge di Goodhart dice che quando una misura diventa un obiettivo, smette di essere una buona misura. LMArena è ora COSÌ importante che i laboratori ottimizzano specificamente per essa. Risposte più lunghe vincono. I punti elenco vincono. La fiducia vince anche quando è sbagliata. La piattaforma ha riconosciuto questo. Hanno aggiunto punteggi di "controllo dello stile" per penalizzare la scorretta formattazione. Claude è salito. GPT-4o-mini è sceso. Ma la tensione centrale rimane. LMArena guadagna oltre $30M all'anno dai stessi laboratori che giudica. OpenAI, Google, xAI sono clienti. L'arbitro viene pagato dai giocatori. Dicono che la classifica pubblica è "una carità" e non puoi pagare per la posizione. Li credo. Ma la struttura degli incentivi è... complicata. La valutazione dice che il mercato pensa che possano trovare un equilibrio tra successo commerciale e neutralità percepita. L'ingresso di Peter Deng nel consiglio è interessante. Ex VP del Prodotto Consumatore di OpenAI. Ora GP di Felicis che guida questo round. Sa esattamente quanto sia preziosa la posizione in Arena per il marketing dei modelli. Ion Stoica come cofondatore è l'ancora di credibilità. Professore a Berkeley, ha creato Spark e Ray, gestisce il Sky Computing Lab. Non è una startup a caso. È un'infrastruttura costruita da ricercatori che comprendono i sistemi distribuiti. $250M raccolti in 7 mesi. Team di oltre 40 persone. 5M di utenti mensili in 150 paesi. La valutazione è appena diventata una categoria da miliardi di dollari.
Da grandi laboratori, non da grandi Kansas, lol penso che qualcuno debba addestrare questi correttori automatici su molti più token…
11