Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Anastasios Nikolas Angelopoulos
Bygge LMArena.
Black-box-statistikk, modellevaluering.
@Berkeley_EECS Ph.D., tidligere studentforsker @GoogleDeepMind og @stanford_ee alumn.
Denne utgivelsen er jævla enorm. Det er en av de største oppdateringene til LMArena i år!
Code Arena er vår neste generasjon av kodeevalueringer, som begynner med webutviklingsoppgaver.
Her kan du bruke modeller til å bygge interaktive nettsteder og dele dem med vennene dine. Lenkene er vedvarende, så du kan for eksempel bygge et spill og spille det når du vil.
Her kan du se to modeller – @claudeai Haiku og @grok-Code-Fast – konkurrere om å bygge en galakse. I dette tilfellet likte jeg "star-wars"-effekten av Grok!

lmarena.ai13. nov. 2025
🚀Vi introduserer Code Arena: neste generasjon av live-kodingsevalueringer for grensesprengende AI-modeller. Bygget for å teste hvordan modeller planlegger, stillaser, feilsøker og bygger ekte nettapper trinn for trinn.
Prøv Claude, GPT-5, GLM-4.6 og Gemini i Code Arena i dag!
37,07K
🏆NYE LMARENA-LEDERTAVLER🏆
🤓Eksperter
💻 Programvare og IT-tjenester
✍️ Skriving, litteratur og språk
🔬 Livs-, fysikk- og samfunnsvitenskap
🎭 Underholdning, sport og media
📈 Forretnings-, ledelses- og finansoperasjoner
🧮 Matematisk
⚖️ Juridisk og offentlig sektor
🩺 Medisin og helsevesen
Evalueringer av AIs økonomiske nytte (som BNPPval) er stadig mer relevante, men dyre å samle inn. Vi jobbet med LMArenas fellesskap av millioner av månedlige bidragsytere for å skaffe yrkes- og ekspertdata organisk, og løse skalerbarhetsproblemet.
>5 % av LMArena-brukerne er eksperter, og en stor brøkdel av LMArena-spørsmålene er i økonomisk verdifulle bransjer: SWE, studenter/forskere, markedsførere/designere, leger, advokater og mer. Dette gjør at vi kan bygge online ledertavler i disse kategoriene bygget på ferske tilbakemeldinger hver dag. Det taler til kraften i det virkelige tilbakemeldingssystemet vi har laget på @arena!


lmarena.ai6. nov. 2025
🚀 Vi introduserer Arena Expert: et nytt LMArena-evalueringsrammeverk for å identifisere de tøffeste spørsmålene på ekspertnivå fra ekte brukere, og driver en ny ekspertledertavle.
Vi introduserer også yrkeskategorier som ligger til grunn for åtte nye ledertavler:
💻 Programvare og IT-tjenester
✍️ Skriving, litteratur og språk
🔬 Livs-, fysikk- og samfunnsvitenskap
🎭 Underholdning, sport og media
📈 Forretnings-, ledelses- og finansoperasjoner
🧮 Matematisk
⚖️ Juridisk og offentlig sektor
🩺 Medisin og helsevesen
Utforsk hvordan modeller presterer på tvers av felt i tråd 🧵 👇

12,6K
LMArena-kontoret surrer i dag. Miljøet er superlineært. Vi blander oss konstruktivt inn, presser alltid hverandre til å lære og overskride det vi trodde var våre grenser.
#1-egenskapen vi ser etter når vi ansetter er "fortreffelighet". Produserer arbeid hver dag som oppfyller den høyeste tekniske standarden når det gjelder håndverk, ytelse og pålitelighet. Det er andre faktorer også, men gå aldri på akkord med fortreffelighet. Som en konsekvens er alle i teamet vårt en dyp ekspert. Dette er nødvendig for å bygge kvalitetsevalueringer med tillit.
Fortreffelighet avler fortreffelighet. Ingen ønsker å jobbe i et miljø med en haug med våte tepper - det dreper momentumet. Vi hever stadig standarden, og det er dette som fører til følelsen av energi. Det er sjeldent.
Hvis du er interessert i å jobbe i denne typen miljø, send meg en DM. Vi er alltid på utkikk etter folk som kan heve standarden ett hakk høyere.
6,6K
Topp
Rangering
Favoritter

