DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

O METR não é 100% "seguro", mas continua sendo um dos benchmarks mais valiosos porque é conduzido por uma equipe competente e bem financiada que inclui muitas tarefas diversas que não estão publicamente disponíveis para treinamento. Outros benchmarks podem ser 'manipulados' por IAs que sabem as respostas antecipadamente (resolvidas por conjuntos privados de retenção) ou fazendo RL nas tarefas (resolvido com diversidade de tarefas). ... Benchmarks também podem acabar sendo prejudicados de algumas maneiras (por exemplo, o SWE-Bench original antes do "SWE-Bench Verified" tinha alguns problemas acidentalmente insolúveis). Acho que diferentes benchmarks se encaixam em níveis. O METR parece uma avaliação padrão ouro de Nível 1. ARC-AGI e FrontierMath também não são tão ruins, provavelmente como o Tier 2. SWE-Bench parece um pouco menos importante de analisar quando você já tem METR. Eu quero desesperadamente mais referências de topo fora de matemática e engenharia. Estou animado com o ARC-AGI-3 (o dos videogames).

Melhores

Classificação

Favoritos