Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Tak, dla mnie to nawet nie widzę, co robią, aby zarabiać pieniądze, wydaje się, że stworzyli benchmark, który stał się popularny, a teraz to płatne wygrywanie. Nie widzę żadnego innego powodu, dla którego mogliby w ogóle generować tak duże przychody z tego, ale nie mam szczegółów, za co klienci im płacą. Zaczęło się jako sposób na testowanie otwartych modeli, ale nasza ostatnia próba dostania się tam została zignorowana i opóźniona o miesiące, podczas gdy meta testowała setki modeli, aby zoptymalizować je specjalnie pod kątem maksymalizacji ocen, a po tym po prostu przestaliśmy składać wnioski. Dawno temu przestałem wierzyć, że lmarena to użyteczny wskaźnik i słyszałem prywatnie od dużego Kansas, że nienawidzą tego, że to prowadzi ich modele do niższej jakości, aby go pokonać. Więc, nie wiem, to wszystko.

Moje zdanie na temat LMArena różni się od większości. Nagłówek tutaj to 30 milionów dolarów ARR w 4 miesiące. Ale bardziej interesuje mnie model biznesowy, który się za tym kryje. LMArena zbudowała coś, co wydaje się niemożliwe. Platforma oceny oparta na crowdsourcingu, która stała się największym dźwignią marketingową w AI, a następnie wymyśliła, jak obciążyć laboratoria, które z niej korzystują. Pozwól, że rozłożę to na czynniki pierwsze. Przeszli od 600 milionów dolarów do 1,7 miliarda dolarów w 7 miesięcy. To wzrost wyceny o 183%. Przy 30 milionach dolarów ARR, handlują po 57x przychodów. Ale tempo wzrostu wzrosło z 0 do 30 milionów dolarów w 4 miesiące. To 7,5 miliona dolarów miesięcznie NOWYCH przychodów w kategorii, która nie istniała 18 miesięcy temu. Prawdziwa historia to koło zamachowe, które zbudowali. 35 milionów użytkowników przychodzi, aby zagrać w grę. Dwa anonimowe odpowiedzi AI, wybierz swoją ulubioną. Ci użytkownicy generują 60 milionów rozmów miesięcznie. Te dane stają się najbardziej zaufanym punktem odniesienia w branży. OpenAI, Google, xAI wszyscy potrzebują swoich modeli na tej liście liderów. Więc PŁACĄ, aby zostać ocenionymi. To genialne, ponieważ klienci są również produktem, który jest testowany. Trudniejsze pytanie brzmi, czy to się utrzyma. Cohere, AI2, Stanford i Waterloo opublikowały w kwietniu 68-stronicowy dokument oskarżający LMArena o pozwolenie Meta na testowanie 27 wariantów modelu przed Llama 4, ukrywając najgorsze wyniki. Dokument "Iluzja Lidera" zasadniczo mówił, że pole gry było ustawione na korzyść dużych laboratoriów. LMArena nazwała to nieścisłym. Ale sytuacja z Llama 4 była skomplikowana. Meta dostosowała model specjalnie do wydajności Areny, zajęła pierwsze miejsce na liście liderów, a następnie wydała inny model dla publiczności, który wypadł gorzej. Tutaj zaczyna się robić interesująco. Prawo Goodharta mówi, że gdy miara staje się celem, przestaje być dobrą miarą. LMArena jest teraz TAK ważna, że laboratoria optymalizują się specjalnie pod nią. Dłuższe odpowiedzi wygrywają. Punkty kulkowe wygrywają. Pewność wygrywa, nawet gdy jest błędna. Platforma to uznała. Dodali ocenę "kontroli stylu", aby ukarać za niechlujstwo w markdownie. Claude awansował. GPT-4o-mini spadł. Ale podstawowe napięcie pozostaje. LMArena zarabia ponad 30 milionów dolarów rocznie od tych samych laboratoriów, które ocenia. OpenAI, Google, xAI są klientami. Sędzia jest opłacany przez graczy. Mówią, że publiczna lista liderów to "charytatywna inicjatywa" i nie można płacić za miejsce. Wierzę im. Ale struktura zachęt jest... skomplikowana. Wycena mówi, że rynek myśli, że mogą przejść przez igłę między sukcesem komercyjnym a postrzeganą neutralnością. Peter Deng dołącza do zarządu, co jest interesujące. Były wiceprezydent ds. produktów konsumenckich w OpenAI. Teraz GP w Felicis prowadzi tę rundę. Wie dokładnie, jak cenne jest umiejscowienie w Arenie dla marketingu modeli. Ion Stoica jako współzałożyciel to kotwica wiarygodności. Profesor z Berkeley, stworzył Spark i Ray, prowadzi Sky Computing Lab. To nie jest przypadkowy startup. To infrastruktura zbudowana przez badaczy, którzy rozumieją systemy rozproszone. Zebrano 250 milionów dolarów w 7 miesięcy. Zespół 40+. 5 milionów użytkowników miesięcznie w 150 krajach. Ocena właśnie stała się kategorią wartą miliard dolarów.

Z dużych laboratoriów, nie z dużego Kansas, lmao, myślę, że ktoś musi nauczyć te autokorekty na znacznie większej liczbie tokenów…

Najlepsze

Ranking

Ulubione