Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ja, ich meine, ich sehe nicht einmal, was sie tun, um Geld zu verdienen. Es fühlt sich an, als hätten sie einen Benchmark erstellt, der populär wurde, und jetzt ist es Pay-to-Win. Ich sehe keinen anderen Grund, warum sie so viel Umsatz damit erzielen könnten, aber ich habe keine Details darüber, wofür die Kunden ihnen überhaupt bezahlen.
Es begann als eine Möglichkeit, offene Modelle zu testen, aber unser letzter Versuch, dort reinzukommen, wurde ignoriert und monatelang verzögert, während Meta Hunderte von Modellen testete, um speziell darauf abzuzielen, die Bewertungen zu maximieren. Danach haben wir einfach aufgehört, Einreichungen zu machen. Ich habe vor sehr langer Zeit aufgegeben, an lmarena als nützliche Kennzahl zu glauben, und habe privat von großen Kansas gehört, dass sie das Ding hassen, weil es ihre Modelle dazu bringt, eine geringere Qualität zu erreichen, um es zu schlagen. Also, ich weiß nicht, das ist alles.

7. Jan., 08:47
Meine Einschätzung zu LMArena ist anders als die meisten.
Die Schlagzeile hier ist $30M ARR in 4 Monaten. Aber ich bin mehr an dem Geschäftsmodell dahinter interessiert.
LMArena hat etwas gebaut, das unmöglich erscheint. Eine crowdsourced Bewertungsplattform, die zum größten Marketinghebel im Bereich KI wurde, und dann herausfand, wie man die Labore, die sie nutzen, zur Kasse bittet.
Lass mich die Zahlen aufschlüsseln.
Sie sind von $600M auf $1.7B in 7 Monaten gewachsen. Das sind 183% Bewertungswachstum. Bei $30M ARR handeln sie mit dem 57-fachen Umsatz. Aber die Laufzeit wuchs von $0 auf $30M in 4 Monaten.
Das sind $7.5M pro Monat an NEUEN Einnahmen in einer Kategorie, die vor 18 Monaten nicht existierte.
Die wahre Geschichte ist das Flywheel, das sie gebaut haben.
35M Nutzer kommen, um ein Spiel zu spielen. Zwei anonyme KI-Antworten, wähle deine Lieblingsantwort. Diese Nutzer generieren 60M Gespräche pro Monat. Diese Daten werden zum vertrauenswürdigsten Benchmark in der Branche. OpenAI, Google, xAI müssen alle ihre Modelle auf diesem Leaderboard haben. Also ZAHLEN sie, um bewertet zu werden.
Es ist genial, weil die Kunden auch das Produkt sind, das getestet wird.
Die schwierigere Frage ist, ob das hält.
Cohere, AI2, Stanford und Waterloo haben im April ein 68-seitiges Papier veröffentlicht, in dem LMArena beschuldigt wird, Meta 27 Modellvarianten vor Llama 4 testen zu lassen, während die schlechtesten Ergebnisse verborgen wurden. Das Papier "Leaderboard Illusion" besagte im Grunde, dass das Spielfeld zugunsten großer Labore manipuliert war.
LMArena nannte es ungenau. Aber die Llama 4-Situation war chaotisch. Meta hat ein Modell speziell für die Arena-Leistung optimiert, das Leaderboard angeführt und dann ein anderes Modell veröffentlicht, das schlechter abschnitt.
Hier wird es interessant.
Goodharts Gesetz besagt, dass wenn eine Messung zu einem Ziel wird, sie aufhört, eine gute Messung zu sein. LMArena ist jetzt SO wichtig, dass Labore speziell dafür optimieren. Längere Antworten gewinnen. Aufzählungspunkte gewinnen. Vertrauen gewinnt, selbst wenn es falsch ist.
Die Plattform hat dies anerkannt. Sie haben eine "Stilkontrolle"-Bewertung hinzugefügt, um Markdown-Fehler zu bestrafen. Claude ist aufgestiegen. GPT-4o-mini ist gefallen.
Aber die grundlegende Spannung bleibt.
LMArena verdient über $30M pro Jahr von denselben Laboren, die es bewertet. OpenAI, Google, xAI sind Kunden. Der Schiedsrichter wird von den Spielern bezahlt.
Sie sagen, das öffentliche Leaderboard sei "eine Wohltätigkeit" und man könne nicht für Platzierungen bezahlen. Ich glaube ihnen. Aber die Anreizstruktur ist... kompliziert.
Die Bewertung sagt, der Markt glaubt, dass sie die Nadel zwischen kommerziellem Erfolg und wahrgenommener Neutralität einfädeln können.
Peter Deng, der dem Vorstand beitritt, ist interessant. Ehemaliger VP für Verbraucherprodukte bei OpenAI. Jetzt GP bei Felicis, der diese Runde leitet. Er weiß genau, wie wertvoll die Platzierung in der Arena für das Marketing von Modellen ist.
Ion Stoica als Mitgründer ist der Glaubwürdigkeitsanker. Professor in Berkeley, hat Spark und Ray geschaffen, leitet das Sky Computing Lab. Das ist kein zufälliges Startup. Es ist Infrastruktur, die von Forschern gebaut wurde, die verteilte Systeme verstehen.
$250M in 7 Monaten gesammelt. Team von über 40. 5M monatliche Nutzer in 150 Ländern.
Die Bewertung ist gerade zu einer Milliardenkategorie geworden.
Von großen Laboren, nicht von großem Kansas, lmao. Ich denke, jemand muss diese Autokorrekturen mit viel mehr Tokens trainieren…
10
Top
Ranking
Favoriten
