哇哦,从 @taker_of_whizz 泄露的 Gemini 3.0 Pro 基准测试,无法验证这些。 这些基准测试绝对令人震惊! HLE,37.5% MathArena Apex 22.3%,相比之下 GPT-5.1 仅为 1.0% 它的表现和人们的期望一样好!
whizz taker
whizz taker11月18日 18:57
Gemini 3 Pro 基准测试
31.1% ARC AGI 2 HOLY MOLY
167.33K