DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Oma LMArenan lukemani on erilainen kuin useimmilla. Otsikko tässä on: 30 miljoonaa dollaria ARR neljän kuukauden päästä. Mutta minua kiinnostaa enemmän liiketoimintamalli sen alla. LMArena rakensi jotain, mikä tuntuu mahdottomalta. Joukkoistettu arviointialusta, josta tuli tekoälyn suurin markkinointivipu ja joka sitten keksi, miten laboratorioita veloitetaan sen avulla. Selitän matematiikkaa. Heidän arvonsa nousivat 600 miljoonasta 1,7 miljardiin seitsemässä kuukaudessa. Se tarkoittaa 183 %:n arvostuskasvua. 30 miljoonan dollarin ARR:lla he käyvät kauppaa 57-kertaisella liikevaihdolla. Mutta juoksunopeus kasvoi 0 dollarista 30 miljoonaan neljässä kuukaudessa. Se on 7,5 miljoonaa dollaria kuukaudessa UUTTA liikevaihtoa kategoriassa, jota ei ollut olemassa 18 kuukautta sitten. Todellinen tarina on vauhtipyörä, jonka he rakensivat. 35 miljoonaa käyttäjää saapuu pelaamaan peliä. Kaksi anonyymiä tekoälyvastausta, valitse suosikkisi. Nämä käyttäjät tuottavat 60 miljoonaa keskustelua kuukaudessa. Tämä data muodostuu alan luotetuimmaksi vertailuindeksiksi. OpenAI, Google ja xAI tarvitsevat kaikki omat mallinsa tuolle tulostaululle. Joten he MAKSAVAT saadakseen arvioinnin. Se on nerokasta, koska asiakkaat ovat myös testattava tuote. Vaikeampi kysymys on, pitääkö tämä paikkansa. Cohere, AI2, Stanford ja Waterloo julkaisivat huhtikuussa 68-sivuisen artikkelin, jossa syytettiin LMArenaa siitä, että se antoi Metan testata 27 mallivarianttia ennen Llama 4:ää samalla kun se piilotti huonoimmat pisteet. "Leaderboard Illusion" -artikkeli käytännössä sanoi, että pelikenttä oli säädetty suurten laboratorioiden suuntaan. LMArena kutsui sitä epätarkaksi. Mutta Llama 4:n tilanne oli sekava. Meta viritti mallin, joka oli suunniteltu erityisesti Arena-suoritukseen, voitti leaderbaordin ja julkaisi yleisölle toisen mallin, joka suoriutui heikommin. Tässä kohtaa se muuttuu kiinnostavalta. Goodhartin laki sanoo, että kun mittarista tulee kohde, se lakkaa olemasta hyvä mittari. LMArena on nyt NIIN tärkeä, että laboratoriot optimoivat juuri sitä varten. Pidemmät vastaukset voittavat. Bullet pointit voittavat. Itsevarmuus voittaa, vaikka väärin olisikin. Alusta tunnusti tämän. He lisäsivät "tyylikontrollin" pisteytyksen rangaistakseen markdownin slopetusta. Claude eteni ylemmäs. GPT-4o-mini siirtyi alas. ...

Johtavat

Rankkaus

Suosikit