Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
METR n'est pas 100% "sûr", mais il reste l'un des benchmarks les plus précieux car il est géré par une équipe compétente et bien dotée en ressources, qui inclut de nombreuses tâches diverses qui ne sont pas disponibles publiquement pour s'entraîner.
D'autres benchmarks peuvent être "manipulés" par des IA connaissant les réponses à l'avance (résolu par des ensembles de validation privés) ou en faisant du RL sur les tâches (résolu en ayant une diversité de tâches). ...Les benchmarks peuvent également finir par être perturbés de certaines manières (par exemple, le SWE-Bench original avant "SWE-Bench Verified" avait quelques problèmes accidentellement insolubles).
Je pense que différents benchmarks s'inscrivent dans des niveaux. METR semble être une évaluation de référence de niveau 1. ARC-AGI et FrontierMath ne sont pas si mauvais, probablement de niveau 2. SWE-Bench semble un peu moins important à considérer quand on a déjà METR. Je veux désespérément plus de benchmarks de haut niveau en dehors des mathématiques et de l'ingénierie. Je suis excité par ARC-AGI-3 (celui des jeux vidéo).
Meilleurs
Classement
Favoris
