私はホリデー休暇中にオープンソースのポーカーリバーソルバーをバイブコードしました。コードは100%Codexによって書かれており、比較のためにClaude Codeでバージョンも作成しました。 全体として、これらのツールのおかげで、よく知っている分野での反復作業が格段に速くなりました。しかし、彼らを完全には信用できないとも感じていました。彼らはミスをしたりバグに遭遇したりしましたが、それを認める代わりに大したことではないと思い込んだり、時には単に私に何も問題がないと思わせようとガスライティングしようとすることもありました。 ある記憶に残るデバッグセッションで、Claude Codeに、プレイヤーが100ドルのポットを持っている場合の「オールウェイルド」戦略の期待値はどれくらいかを正気確認として尋ねました。アルゴリズムによると、EVは-93ドルだと言われました。それがどれほど奇妙かを指摘し、自分でバグに気づくことを期待すると、93ドルは100ドル近くなのでおそらく問題ないと安心させてくれました。(ブロッカーを問題として具体的に考慮するように促すと、アルゴリズムが正しく考慮していないことを認めました。)Codexもこの点であまり良くなく、独自の(興味深いことに)独特のバグやアルゴリズムのミスに遭遇し、慎重に修正しなければなりませんでした。幸いにも、私はポーカーソルバーの専門家なのでこれらの問題を解決できましたが、AIコーディングツールを使ってこのソルバーを作れた人は他にあまりいないと思います。 一番イライラしたのはGUIを作ることでした。何度もやり取りを繰り返しましたが、CodexもClaude Codeも私が依頼したフロントエンドは実現できませんでしたが、Claude Codeの方が少なくとも見た目は良かったです。私はフロントエンドの経験がないので、私が求めていたことが単に不可能だったのかもしれませんが、もしそうなら、壊れた実装やリクエストしていないことを繰り返し作るのではなく、難しいとか不可能だと教えてくれればよかったのにと思います。人間のチームメイトとAIと仕事をすることには大きな違いがあることを改めて実感しました。 初期実装が完了しデバッグされた後、CodexとClaude Codeに最適化されたC++バージョンの作成を依頼しました。この点でCodexは驚くほど良い成績を収めました。C++版はClaude Codeの6倍速く(何度も最適化を求めてプロンプトを繰り返しても)、Codexの最適化も私が作れるものほど良くはありませんでしたが、私は博士課程で6年間ポーカーボットを作りました。全体的に見て、Codexはこの点で見事に仕上げていると思います。 最後のお願いは、AIにNLTHの川をさらに速く解く新しいアルゴリズムを考え出せないか尋ねることでした。どちらも成功しなかったが、それは驚くことではなかった。LLMは急速に進化していますが、この種の新しいアルゴリズムを開発するのは人間の専門家にとって数か月にわたる研究プロジェクトです。LLMはまだそのレベルに達していません。