Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Представляем KernelBench-V3. Возможно, вы видели это в моих таймлапсах недавно. Мне нужно было убедиться, что я полностью проработал это, прежде чем выпустить. Кратко: Я заново построил оригинальный KernelBench с нуля после того, как METR обнаружил, что множество проблем можно было взломать. Я сократил количество проблем с 270 до 41, которые имеют наибольшее значение для проектирования ядра. Он сосредоточен на современных архитектурах, таких как MLA и gated deltanet, и протестировал 10 передовых моделей на H100 + B200. Gemini 3 Pro и Claude Opus 4.5 лидируют по ядрам, которые обгоняют pytorch. GPT 5.2 имеет наивысшую точность, но меньше быстрых ядер. Открытая модель действительно испытывала трудности здесь. Основная причина, по которой я собрал это вместе, заключалась в том, что мне лично хотелось знать, какая модель лучше всего подходит для генерации/оптимизации ядер. Думаю, у меня теперь есть лучший ответ! Все еще много возможностей для улучшения! Открыт для предложений.

Топ

Рейтинг

Избранное