gpt-oss-120b 真是太好了 這裡的 Gemini Pro 2.5 價格便宜 98.9%
Sakana AI
Sakana AI2025年5月26日
在我們發佈基於 Sudoku 的推理基準之後,我們一直在評估最新的模型,以跟蹤其推理能力的改進。 今天,我們推出了 Sudoku-Bench 排行榜: 新技術報告: 您現在可以在我們的即時排行榜上跟蹤新模型的進度。在我們迄今為止對標的模型中:OpenAI 的 o3 Mini High 總體領先。有趣的是,Gemini 2.5 Pro 在更難的 6x6 拼圖上表現更好!然而,o3 是唯一可以解決任何 9x9 數獨的模型,但只有 2.9%,而且只有原版數獨。 至關重要的是,沒有一個測試的模型可以征服需要強大、創造性推理的 9x9。這個基準仍然是一個巨大的挑戰!要更深入地瞭解基準測試、方法和我們的發現,請查看我們的技術報告。 想在 Sudoku-Bench 上測試模型嗎?這很簡單!訪問排行榜。選擇一個拼圖。我們生成一個提示 (拼圖 + 說明) 以粘貼到任何模型中。也可以從我們的測試中探索示例推理跟蹤!
> o3 是唯一能解決任何 9x9 數獨的模型 gpt-oss-120b 也能解決 9×9(1.4%)。在 peval 上唯一能解決任何 9×9 的其他模型是 GPT 5
1.84K