DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Från ett skrapigt sidoprojekt byggt för att lösa sina egna LLM-optimeringsproblem till att bli branschens de facto oberoende resultattavla, gick Micah Hill-Smith och George Cameron igenom processen att lansera Artificial Analysis gratis, betala benchmarkingkostnader ur egen ficka och utveckla det till vad många nu kallar "den nya AI-Gartnern" för företag, Labb och utvecklare. Vi satte oss ner med Micah och George för att reda ut varför verkligt oberoende benchmarking är så svårt (promptvarians, utvärderingsmättnad, mystery shopper-policys), hur Artificial Analysis Intelligence Index utvecklades när gamla benchmarks bröts, och vilka nya mått som faktiskt spelar roll nu, såsom agentiska utvärderingar (GDPVal-AA). Vi gräver också i ekonomin bakom AI:s "leenskurva": varför intelligens blir 100–1000× billigare per enhet medan den totala konsumtionen exploderar, hur resonemang och agenter förändrar tokens effektivitet, och deras satsning på att utvärderingar måste ständigt utvecklas eller riskera att träna branschen att optimera för fel saker. @swyx @_micah_h @grmcameron

Topp

Rankning

Favoriter