Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O METR não é 100% "seguro", mas continua sendo um dos benchmarks mais valiosos porque é conduzido por uma equipe competente e bem financiada que inclui muitas tarefas diversas que não estão publicamente disponíveis para treinamento.
Outros benchmarks podem ser 'manipulados' por IAs que sabem as respostas antecipadamente (resolvidas por conjuntos privados de retenção) ou fazendo RL nas tarefas (resolvido com diversidade de tarefas). ... Benchmarks também podem acabar sendo prejudicados de algumas maneiras (por exemplo, o SWE-Bench original antes do "SWE-Bench Verified" tinha alguns problemas acidentalmente insolúveis).
Acho que diferentes benchmarks se encaixam em níveis. O METR parece uma avaliação padrão ouro de Nível 1. ARC-AGI e FrontierMath também não são tão ruins, provavelmente como o Tier 2. SWE-Bench parece um pouco menos importante de analisar quando você já tem METR. Eu quero desesperadamente mais referências de topo fora de matemática e engenharia. Estou animado com o ARC-AGI-3 (o dos videogames).
Melhores
Classificação
Favoritos
