Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vi introduserer KernelBench-V3. Du har kanskje sett dette i timelapse-opptakene mine nylig. Måtte være sikker på at jeg var helt ferdigstekt på denne før jeg satte den ut.
Kort oppsummert:
Jeg bygde opp den originale KernelBench fra bunnen av etter at METR fant ut at mye av problemet kunne hackes. Kutt det ned fra 270 problemer til 41 som betyr mest for kernel engineering. Den fokuserer på moderne arkitekturer som MLA og gated deltanet, og kjørte 10 frontier-modeller på H100 + B200.
Gemini 3 Pro og Claude Opus 4.5 leder kjernene som slår pytorch. GPT 5.2 har høyest korrekthet, men færre raske kjerner. Åpen modell slet virkelig her.
Hovedgrunnen til at jeg satte dette sammen, var fordi jeg personlig ønsket å vite hvilken modell som var best for kjernegenerering/optimalisering. Jeg tror jeg har et bedre svar nå!
Det er fortsatt mye rom for forbedring! Åpen for bidrag.


Topp
Rangering
Favoritter
