DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Kyllä, minusta en edes näe, mitä he tekevät rahan eteen, tuntuu siltä, että he tekivät vertailuarvon, joka tuli suosituksi ja nyt se on pay to win, en näe muuta syytä, miksi he voisivat saada niin paljon tuloja tästä, mutta minulla ei ole lainkaan yksityiskohtia siitä, mistä asiakkaat maksavat heille. Se alkoi tapana testata avoimia malleja, mutta viimeinen yrityksemme päästä sinne jätettiin huomiotta ja viivästytettiin kuukausia, kun Meta testasi satoja malleja optimoidakseen juuri arvioiden maksimimäärän saavuttamiseksi, ja sen jälkeen lopetimme lähettämisen. Luovuin jo kauan sitten uskomasta, että lmarena olisi hyödyllinen mittari, ja olen kuullut yksityisesti isoilta Kansasilta, että he vihaavat sitä, että se ajaa mallejaan huonompaan laatuun voittaakseen sen. Joten, en tiedä, siinä kaikki

Oma LMArenan lukemani on erilainen kuin useimmilla. Otsikko tässä on: 30 miljoonaa dollaria ARR neljän kuukauden päästä. Mutta minua kiinnostaa enemmän liiketoimintamalli sen alla. LMArena rakensi jotain, mikä tuntuu mahdottomalta. Joukkoistettu arviointialusta, josta tuli tekoälyn suurin markkinointivipu ja joka sitten keksi, miten laboratorioita veloitetaan sen avulla. Selitän matematiikkaa. Heidän arvonsa nousivat 600 miljoonasta 1,7 miljardiin seitsemässä kuukaudessa. Se tarkoittaa 183 %:n arvostuskasvua. 30 miljoonan dollarin ARR:lla he käyvät kauppaa 57-kertaisella liikevaihdolla. Mutta juoksunopeus kasvoi 0 dollarista 30 miljoonaan neljässä kuukaudessa. Se on 7,5 miljoonaa dollaria kuukaudessa UUTTA liikevaihtoa kategoriassa, jota ei ollut olemassa 18 kuukautta sitten. Todellinen tarina on vauhtipyörä, jonka he rakensivat. 35 miljoonaa käyttäjää saapuu pelaamaan peliä. Kaksi anonyymiä tekoälyvastausta, valitse suosikkisi. Nämä käyttäjät tuottavat 60 miljoonaa keskustelua kuukaudessa. Tämä data muodostuu alan luotetuimmaksi vertailuindeksiksi. OpenAI, Google ja xAI tarvitsevat kaikki omat mallinsa tuolle tulostaululle. Joten he MAKSAVAT saadakseen arvioinnin. Se on nerokasta, koska asiakkaat ovat myös testattava tuote. Vaikeampi kysymys on, pitääkö tämä paikkansa. Cohere, AI2, Stanford ja Waterloo julkaisivat huhtikuussa 68-sivuisen artikkelin, jossa syytettiin LMArenaa siitä, että se antoi Metan testata 27 mallivarianttia ennen Llama 4:ää samalla kun se piilotti huonoimmat pisteet. "Leaderboard Illusion" -artikkeli käytännössä sanoi, että pelikenttä oli säädetty suurten laboratorioiden suuntaan. LMArena kutsui sitä epätarkaksi. Mutta Llama 4:n tilanne oli sekava. Meta viritti mallin, joka oli suunniteltu erityisesti Arena-suoritukseen, voitti leaderbaordin ja julkaisi yleisölle toisen mallin, joka suoriutui heikommin. Tässä kohtaa se muuttuu kiinnostavalta. Goodhartin laki sanoo, että kun mittarista tulee kohde, se lakkaa olemasta hyvä mittari. LMArena on nyt NIIN tärkeä, että laboratoriot optimoivat juuri sitä varten. Pidemmät vastaukset voittavat. Bullet pointit voittavat. Itsevarmuus voittaa, vaikka väärin olisikin. Alusta tunnusti tämän. He lisäsivät "tyylikontrollin" pisteytyksen rangaistakseen markdownin slopetusta. Claude eteni ylemmäs. GPT-4o-mini siirtyi alas. Mutta ydinjännite säilyy. LMArena ansaitsee 30 miljoonaa+ dollaria vuodessa samoista laboratorioista, joita se arvioi. OpenAI, Google ja xAI ovat asiakkaita. Tuomari saa palkkansa pelaajilta. He sanovat, että julkinen tulostaulukko on "hyväntekeväisyysjärjestö" eikä sijoituksesta voi maksaa. Uskon heitä. Mutta kannustinrakenne on... monimutkaista. Arvostus kertoo, että markkinat uskovat voivansa tasapainottaa kaupallisen menestyksen ja koetun neutraaliuden välillä. Peter Dengin liittyminen hallitukseen on mielenkiintoista. Entinen kuluttajatuotteiden varatoimitusjohtaja OpenAI:lla. Nyt yleislääkäri Felicisistä johtaa tätä kierrosta. Hän tietää tarkalleen, kuinka arvokasta areenan sijoittaminen on mallimarkkinoinnissa. Ion Stoica perustajana on uskottavuuden ankkuri. Berkeleyn professori, Spark and Ray, johtaa Sky Computing Labia. Tämä ei ole satunnainen startup. Se on infrastruktuuria, jonka ovat rakentaneet tutkijat, jotka ymmärtävät hajautetut järjestelmät. $250M kerättiin seitsemässä kuukaudessa. 40+ hengen tiimi. 5 miljoonaa kuukausittaista käyttäjää 150 maassa. Arvioinnista tuli juuri miljardin dollarin kategoria.

Isoista laboratorioista, ei isosta Kansasista, haha, mielestäni jonkun pitäisi kouluttaa nämä automaattikorjaukset paljon useammilla tokeneilla...

Johtavat

Rankkaus

Suosikit