哇,從 @taker_of_whizz 泄露的 Gemini 3.0 Pro 基準測試,無法驗證這些。 這些基準測試真是令人震驚! HLE,37.5% MathArena Apex 22.3% 與 1.0% GPT-5.1 相比 它的表現和人們希望的一樣好!
whizz taker
whizz taker11月18日 18:57
Gemini 3 Pro 基準測試
31.1% ARC AGI 2 HOLY MOLY
167.33K