Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Знайомимося з KernelBench-V3. Можливо, ви бачили це в моїх таймлапсах останнім часом. Потрібно було переконатися, що я повністю приготував це, перш ніж ставити.
Коротко:
Я перебудував оригінальний KernelBench з нуля після того, як METR виявив, що багато проблем можна зламати. Скоротіть кількість задач з 270 до 41, які мають найбільше значення для інженерії ядра. Вона зосереджена на сучасних архітектурах, таких як MLA та gateed deltanet, і запускала 10 моделей Frontier на H100 + B200.
Gemini 3 Pro та Claude Opus 4.5 лідирують за зернами, які перевершують pytorch. GPT 5.2 має найвищу коректність, але менше швидких ядер. Відкрита модель тут справді мала труднощі.
Головна причина, чому я це зібрав, була в тому, що особисто хотів дізнатися, яка модель найкраще підходить для генерації та оптимізації ядра. Думаю, тепер у мене є краща відповідь!
Ще багато простору для покращення! Відкрито до внесків.


Найкращі
Рейтинг
Вибране
