Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ano, pro mě ani nevidím, co dělají, aby vydělali peníze, připadá mi, že vytvořili benchmark, který se stal populárním, a teď je to pay to win, nevidím jiný důvod, proč by za to mohli vydělávat tolik peněz, ale nemám žádné detaily o tom, za co jim zákazníci platí.
Začalo to jako způsob, jak otestovat otevřené modely, ale náš poslední pokus o vstup tam byl ignorován a zpožděn o měsíce, zatímco meta testovala stovky modelů, aby optimalizovala optimalizaci na maximum hodnocení, a poté jsme prostě přestali posílat příspěvky. Už dávno jsem přestal věřit, že lmarena je užitečná metrika, a soukromě jsem slyšel od velkého Kansasu, že ji nesnáší, že jejich modely nutí k nižší kvalitě, aby ji překonali. Takže, nevím, to je všechno

7. 1. 08:47
Můj pohled na LMArena je jiný než u většiny.
Hlavní zpráva je 30 milionů dolarů ARR za 4 měsíce. Ale víc mě zajímá obchodní model pod povrchem.
LMArena vytvořila něco, co působí nemožně. Crowdsourcovaná hodnotící platforma, která se stala největším marketingovým nástrojem v oblasti AI, a pak zjistila, jak laboratořím účtovat poplatky, které ji používají.
Dovolte mi rozebrat matematiku.
Za 7 měsíců klesly z 600 milionů na 1,7 miliardy. To je růst ocenění o 183 %. Za 30 milionů dolarů ARR se obchodují s 57násobkem tržeb. Ale cena vzrostla z 0 na 30 milionů dolarů během 4 měsíců.
To je 7,5 milionu dolarů měsíčně NOVÝCH příjmů v kategorii, která před 18 měsíci neexistovala.
Skutečný příběh je setrvačník, který postavili.
35 milionů uživatelů přijde hrát hru. Dvě anonymní AI odpovědi, vyberte si svou oblíbenou. Tito uživatelé generují 60 milionů konverzací měsíčně. Tato data se stávají nejdůvěryhodnějším měřítkem v oboru. OpenAI, Google, xAI potřebují své modely na tom žebříčku. Takže PLATÍ za to, aby se nechali vyšetřit.
Je to geniální, protože zákazníci jsou zároveň produkt, který se testuje.
Těžší otázkou je, zda to tak je.
Cohere, AI2, Stanford a Waterloo v dubnu zveřejnili 68stránkový článek, v němž obvinili LMArenu, že nechala Meta testovat 27 variant modelů před Llama 4, zatímco skrývala nejhorší skóre. Článek "Leaderboard Illusion" v podstatě říkal, že hrací pole je nastaveno ve prospěch velkých laboratoří.
LMArena to označila za nepřesné. Ale situace s Llama 4 byla chaotická. Meta upravila model speciálně pro výkon v Arena, ovládla vedoucí pořadí a pak veřejnosti představila jiný model, který fungoval hůř.
Tady to začíná být zajímavé.
Goodhartův zákon říká, že když se opatření stane cílem, přestává být dobrým měřítkem. LMArena je teď TAK důležitá, že laboratoře ji optimalizují přímo na ni. Delší odpovědi vyhrají. Body vítězí. Sebevědomí vítězí i když se mýlíte.
Platforma to uznala. Přidali "style control" bodování, aby penalizovali slevu na slevu. Claude se posunul výš. GPT-4o-mini se přesunul dolů.
Ale jádro napětí přetrvává.
LMArena vydělává 30 milionů dolarů ročně ve stejných laboratořích, které hodnotí. OpenAI, Google, xAI jsou zákazníci. Rozhodčí dostává od hráčů zaplaceno.
Říkají, že veřejná žebříček je "charita" a za umístění se nedá platit. Věřím jim. Ale motivační struktura je... složité.
Ocenění říká, že trh si myslí, že dokáže balancovat mezi komerčním úspěchem a vnímanou neutralitou.
Připojení Petera Denga do představenstva je zajímavé. Bývalý viceprezident pro spotřebitelské produkty ve společnosti OpenAI. Nyní vede toto kolo praktický lékař ve Felicis. Přesně ví, jak cenné je umístění v Areně pro modelový marketing.
Ion Stoica jako spoluzakladatel je oporou důvěryhodnosti. Berkeleyho profesor, který vytvořil Spark and Ray, vede Sky Computing Lab. Tohle není náhodný startup. Je to infrastruktura postavená výzkumníky, kteří rozumí distribuovaným systémům.
Za 7 měsíců bylo vybráno 250 milionů dolarů. Tým 40+. 5 milionů měsíčních uživatelů ve 150 zemích.
Hodnocení se právě stalo kategorií za miliardy dolarů.
Z velkých laboratoří, ne z velkého Kansasu, haha, myslím, že někdo by měl trénovat tyto automatické opravy na mnohem více tokenech...
12
Top
Hodnocení
Oblíbené
