熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
剛下班,嘗試在一個本科生的拓撲問題上使用Grok-4。它花了9分鐘思考,然後自信地給出了一個乾淨、合理,但完全錯誤的答案😅
我不認為這個算是「技術上對抗性強」。AI模型正在壓倒基準——但在真正的數學AGI方面仍然有很長的路要走。



7月10日 16:47
Grok 4 現在幾乎不會在數學/物理考試問題上出錯,除非這些問題是巧妙的對抗性問題。
它可以識別問題中的錯誤或模糊之處,然後修正問題中的錯誤或回答每個模糊問題的變體。
663.05K
熱門
排行
收藏