DApp Store | Web3 Hub for hendelser og spill

Populære emner

Kanskje jeg burde ha gjort dette tydeligere, men ganske mange ppl ser ut til å forvirre hva denne referansen faktisk måler. Det er det IKKE, og det prøver heller ikke å være en måling av agentiske eller IRL-kodingsevner. Den prøver å tilnærme de matematiske evnene til nåværende LLM-er på et sett med problemer jeg har intuisjonen er spesielt vanskelig å løse for dagens modellarkitekturer. Jeg personlig har en tendens til å verdsette matematiske evner mye mer enn de fleste ppl, og dette er helt greit. De fleste ppl burde ikke bry seg om matematikk imo og kanskje Claude-4-5-Sonnet er bedre for ting du verdsetter mer i en LLM. Men strengt tatt for vanskelige matematiske problemer – og dette er hva dette diagrammet hevder – overgår GLM-4.6 bare Claude-4-5-Sonnet, ikke mer, ikke mindre. Det er IKKE bevis og hevder heller ikke at Claude-4-5-Sonnet er en generelt dårligere modell eller ikke det bedre valget for deg. Jeg vet ikke om noen ppl ønsker å tolke det feil, men jeg antok at flertallet av ppl kan gjøre overføringen ovenfor. Det tar bokstavelig talt bare å tenke, lese og se på diagrammet i mer enn 2 sekunder.

Topp

Rangering

Favoritter