熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我在假期期間編寫了一個開源的撲克河牌解算器。這段代碼完全由 Codex 編寫,我還用 Claude Code 製作了一個版本以進行比較。
總的來說,這些工具讓我在我熟悉的領域中能夠更快地迭代。但我也感覺我無法完全信任它們。它們會犯錯並遇到漏洞,但它們往往不承認,而是認為這不算什麼大事,偶爾甚至會試圖讓我相信沒什麼問題。
在一次與 Claude Code 的難忘調試會話中,我問它,作為一個理智檢查,當玩家在底池中有 $100 時,「總是棄牌」策略的預期值會是多少。它告訴我,根據它的算法,EV 是 -$93。當我指出這有多奇怪,希望它能自己意識到有漏洞時,它卻安慰我說 $93 接近 $100,所以可能沒問題。(當我促使它特別考慮阻擋者作為潛在問題時,它承認算法確實沒有正確考慮到這些。)Codex 在這方面也不怎麼好,遇到了自己一系列(有趣地)不同的漏洞和算法錯誤,我不得不仔細處理。幸運的是,我能夠克服這些,因為我是一名撲克解算器的專家,但我不認為有很多其他人能夠通過使用 AI 編碼工具成功製作這個解算器。
最令人沮喪的經歷是製作 GUI。在經過十幾次的反覆溝通後,Codex 和 Claude Code 都無法製作我要求的前端,儘管 Claude Code 的版本至少更漂亮。我對前端不太熟悉,所以也許我要求的根本不可能,但如果是這樣,我希望它們能告訴我這很困難或不可能,而不是不斷製作破損的實現或我沒有要求的東西。這讓我意識到,與人類隊友合作和與 AI 合作之間仍然存在很大差異。
在初步實現完成並調試後,我要求 Codex 和 Claude Code 創建優化的 C++ 版本。在這方面,Codex 表現得相當不錯。它的 C++ 版本比 Claude Code 的快 6 倍(即使在多次提示進一步優化後)。Codex 的優化仍然不如我能做到的好,但畢竟我花了 6 年的博士學位來製作撲克機器人。總的來說,我認為 Codex 在這方面做得相當出色。
我最後的請求是問 AI 是否能提出能更快解決 NLTH 河牌的新算法。兩者都沒有成功,這並不令人驚訝。大型語言模型正在迅速進步,但開發這類新算法對於人類專家來說是一個持續數月的研究項目。大型語言模型尚未達到那個水平。

熱門
排行
收藏
