DeepMind(@GoogleDeepMind)の数学研究エージェント、AletheiaはIMO-Proofbench Advancedで91.9%のスコアを獲得しました。 この性能は2026年1月時点でのGemini Deep Thinkのアドバンストバージョンのスコアを上回り、同時に計算コストを削減しています。 彼らは現在、このアプローチを物理学とコンピュータサイエンスに拡大し、高度なGemini Deep Thinkを活用して科学的なブレークスルーを推進しています。