Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Giới thiệu KernelBench-V3. Bạn có thể đã thấy điều này trong các video timelapse của tôi gần đây. Cần phải đảm bảo rằng tôi đã hoàn thiện hoàn toàn trước khi công bố.
Tóm tắt:
Tôi đã xây dựng lại KernelBench gốc từ đầu sau khi METR phát hiện ra một loạt vấn đề có thể bị hack. Tôi đã giảm số lượng vấn đề từ 270 xuống còn 41 vấn đề quan trọng nhất cho kỹ thuật kernel. Nó tập trung vào các kiến trúc hiện đại như MLA và gated deltanet, và đã chạy 10 mô hình tiên phong trên H100 + B200.
Gemini 3 Pro và Claude Opus 4.5 dẫn đầu về các kernel vượt trội hơn pytorch. GPT 5.2 có độ chính xác cao nhất nhưng ít kernel nhanh hơn. Mô hình mở thực sự gặp khó khăn ở đây.
Lý do chính tôi tập hợp điều này lại là vì tôi cá nhân muốn biết mô hình nào tốt nhất trong việc sinh/ tối ưu hóa kernel. Tôi nghĩ bây giờ tôi đã có câu trả lời tốt hơn!
Vẫn còn nhiều không gian để cải thiện! Mở cửa cho các đóng góp.


Hàng đầu
Thứ hạng
Yêu thích
