Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Můj pohled na LMArena je jiný než u většiny.
Hlavní zpráva je 30 milionů dolarů ARR za 4 měsíce. Ale víc mě zajímá obchodní model pod povrchem.
LMArena vytvořila něco, co působí nemožně. Crowdsourcovaná hodnotící platforma, která se stala největším marketingovým nástrojem v oblasti AI, a pak zjistila, jak laboratořím účtovat poplatky, které ji používají.
Dovolte mi rozebrat matematiku.
Za 7 měsíců klesly z 600 milionů na 1,7 miliardy. To je růst ocenění o 183 %. Za 30 milionů dolarů ARR se obchodují s 57násobkem tržeb. Ale cena vzrostla z 0 na 30 milionů dolarů během 4 měsíců.
To je 7,5 milionu dolarů měsíčně NOVÝCH příjmů v kategorii, která před 18 měsíci neexistovala.
Skutečný příběh je setrvačník, který postavili.
35 milionů uživatelů přijde hrát hru. Dvě anonymní AI odpovědi, vyberte si svou oblíbenou. Tito uživatelé generují 60 milionů konverzací měsíčně. Tato data se stávají nejdůvěryhodnějším měřítkem v oboru. OpenAI, Google, xAI potřebují své modely na tom žebříčku. Takže PLATÍ za to, aby se nechali vyšetřit.
Je to geniální, protože zákazníci jsou zároveň produkt, který se testuje.
Těžší otázkou je, zda to tak je.
Cohere, AI2, Stanford a Waterloo v dubnu zveřejnili 68stránkový článek, v němž obvinili LMArenu, že nechala Meta testovat 27 variant modelů před Llama 4, zatímco skrývala nejhorší skóre. Článek "Leaderboard Illusion" v podstatě říkal, že hrací pole je nastaveno ve prospěch velkých laboratoří.
LMArena to označila za nepřesné. Ale situace s Llama 4 byla chaotická. Meta upravila model speciálně pro výkon v Arena, ovládla vedoucí pořadí a pak veřejnosti představila jiný model, který fungoval hůř.
Tady to začíná být zajímavé.
Goodhartův zákon říká, že když se opatření stane cílem, přestává být dobrým měřítkem. LMArena je teď TAK důležitá, že laboratoře ji optimalizují přímo na ni. Delší odpovědi vyhrají. Body vítězí. Sebevědomí vítězí i když se mýlíte.
Platforma to uznala. Přidali "style control" bodování, aby penalizovali slevu na slevu. Claude se posunul výš. GPT-4o-mini se přesunul dolů.
...
Top
Hodnocení
Oblíbené
