Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Представляем KernelBench-V3. Возможно, вы видели это в моих таймлапсах недавно. Мне нужно было убедиться, что я полностью проработал это, прежде чем выпустить.
Кратко:
Я заново построил оригинальный KernelBench с нуля после того, как METR обнаружил, что множество проблем можно было взломать. Я сократил количество проблем с 270 до 41, которые имеют наибольшее значение для проектирования ядра. Он сосредоточен на современных архитектурах, таких как MLA и gated deltanet, и протестировал 10 передовых моделей на H100 + B200.
Gemini 3 Pro и Claude Opus 4.5 лидируют по ядрам, которые обгоняют pytorch. GPT 5.2 имеет наивысшую точность, но меньше быстрых ядер. Открытая модель действительно испытывала трудности здесь.
Основная причина, по которой я собрал это вместе, заключалась в том, что мне лично хотелось знать, какая модель лучше всего подходит для генерации/оптимизации ядер. Думаю, у меня теперь есть лучший ответ!
Все еще много возможностей для улучшения! Открыт для предложений.


Топ
Рейтинг
Избранное
