DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Einführung von KernelBench-V3. Vielleicht haben Sie das kürzlich in meinen Zeitraffer-Videos gesehen. Ich musste sicherstellen, dass ich dies vollständig durchdacht habe, bevor ich es veröffentliche. TLDR: Ich habe das ursprüngliche KernelBench von Grund auf neu aufgebaut, nachdem METR eine Reihe von Problemen gefunden hat, die hackbar waren. Ich habe es von 270 Problemen auf 41 reduziert, die für das Kernel-Engineering am wichtigsten sind. Es konzentriert sich auf moderne Architekturen wie MLA und gated deltanet und hat 10 Frontier-Modelle auf H100 + B200 getestet. Gemini 3 Pro und Claude Opus 4.5 führen bei Kernen, die besser als Pytorch sind. GPT 5.2 hat die höchste Korrektheit, aber weniger schnelle Kerne. Das offene Modell hatte hier wirklich Schwierigkeiten. Der Hauptgrund, warum ich das zusammengestellt habe, war, weil ich persönlich wissen wollte, welches Modell am besten in der Kernel-Generierung/Optimierung ist. Ich denke, ich habe jetzt eine bessere Antwort! Es gibt immer noch viel Raum für Verbesserungen! Offen für Beiträge.

Top

Ranking

Favoriten