Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
METR не является на 100% "безопасным", но остается одним из самых ценных эталонов, потому что им управляет компетентная команда с хорошими ресурсами, которая включает в себя множество разнообразных задач, недоступных для публичного обучения.
Другие эталоны могут быть "обмануты" ИИ, зная ответы заранее (решается с помощью частных наборов данных) или выполняя RL по задачам (решается наличием разнообразия задач). ...Эталоны также могут оказаться испорченными в некоторых аспектах (например, оригинальный SWE-Bench до "SWE-Bench Verified" имел некоторые случайно неразрешимые проблемы).
Я думаю, что разные эталоны относятся к разным уровням. METR кажется золотым стандартом оценки первого уровня. ARC-AGI и FrontierMath тоже не так плохи, вероятно, на уровне 2. SWE-Bench кажется менее важным для анализа, когда у вас уже есть METR. Я отчаянно хочу больше лучших эталонов вне математики и инженерии. Я в восторге от ARC-AGI-3 (по видеоиграм).
Топ
Рейтинг
Избранное
