Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Apresentando o KernelBench-V3. Você pode ter visto isso nos meus timelapses recentemente. Precisava garantir que cozinhei bem antes de colocar para fora.
Resumo:
Reconstruí o KernelBench original do zero depois que o METR descobriu que muitos problemas eram hackeáveis. Reduza de 270 para 41 problemas que mais importam para engenharia de kernel. Ele é focado em arquiteturas modernas como MLA e deltanet gated, e rodou 10 modelos fronteira no H100 + B200.
Gemini 3 Pro e Claude Opus 4.5 lideram os kernels que vencem o pytorch. O GPT 5.2 tem a maior correção, mas menos kernels rápidos. O modelo aberto realmente teve dificuldades aqui.
O principal motivo de eu ter montado tudo isso foi porque eu queria saber qual modelo era melhor em geração de kernel/otimização. Acho que agora tenho uma resposta melhor!
Ainda há muito espaço para melhorias! Aberto a contribuições.


Melhores
Classificação
Favoritos
