一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我在假期期間編寫了一個開源的撲克河牌解算器。這段代碼完全由 Codex 編寫，我還用 Claude Code 製作了一個版本以進行比較。總的來說，這些工具讓我在我熟悉的領域中能夠更快地迭代。但我也感覺我無法完全信任它們。它們會犯錯並遇到漏洞，但它們往往不承認，而是認為這不算什麼大事，偶爾甚至會試圖讓我相信沒什麼問題。在一次與 Claude Code 的難忘調試會話中，我問它，作為一個理智檢查，當玩家在底池中有 $100 時，「總是棄牌」策略的預期值會是多少。它告訴我，根據它的算法，EV 是 -$93。當我指出這有多奇怪，希望它能自己意識到有漏洞時，它卻安慰我說 $93 接近 $100，所以可能沒問題。（當我促使它特別考慮阻擋者作為潛在問題時，它承認算法確實沒有正確考慮到這些。）Codex 在這方面也不怎麼好，遇到了自己一系列（有趣地）不同的漏洞和算法錯誤，我不得不仔細處理。幸運的是，我能夠克服這些，因為我是一名撲克解算器的專家，但我不認為有很多其他人能夠通過使用 AI 編碼工具成功製作這個解算器。最令人沮喪的經歷是製作 GUI。在經過十幾次的反覆溝通後，Codex 和 Claude Code 都無法製作我要求的前端，儘管 Claude Code 的版本至少更漂亮。我對前端不太熟悉，所以也許我要求的根本不可能，但如果是這樣，我希望它們能告訴我這很困難或不可能，而不是不斷製作破損的實現或我沒有要求的東西。這讓我意識到，與人類隊友合作和與 AI 合作之間仍然存在很大差異。在初步實現完成並調試後，我要求 Codex 和 Claude Code 創建優化的 C++ 版本。在這方面，Codex 表現得相當不錯。它的 C++ 版本比 Claude Code 的快 6 倍（即使在多次提示進一步優化後）。Codex 的優化仍然不如我能做到的好，但畢竟我花了 6 年的博士學位來製作撲克機器人。總的來說，我認為 Codex 在這方面做得相當出色。我最後的請求是問 AI 是否能提出能更快解決 NLTH 河牌的新算法。兩者都沒有成功，這並不令人驚訝。大型語言模型正在迅速進步，但開發這類新算法對於人類專家來說是一個持續數月的研究項目。大型語言模型尚未達到那個水平。