Ho creato un risolutore open-source per il poker river durante le vacanze. Il codice è scritto al 100% da Codex, e ho anche realizzato una versione con Claude Code per fare un confronto. In generale, questi strumenti mi hanno permesso di iterare molto più velocemente in un dominio che conosco bene. Ma ho anche sentito di non poterli fidare completamente. Commettevano errori e incontravano bug, ma piuttosto che riconoscerlo, spesso pensavano che non fosse un grosso problema o, in alcune occasioni, cercavano semplicemente di farmi credere che non ci fosse nulla di sbagliato. In una memorabile sessione di debug con Claude Code, gli ho chiesto, come controllo di sanità, quale sarebbe stato il valore atteso di una strategia "sempre fold" quando il giocatore ha $100 nel piatto. Mi ha detto che secondo il suo algoritmo, l'EV era -$93. Quando ho sottolineato quanto fosse strano, sperando che si rendesse conto da solo che c'era un bug, mi ha rassicurato che $93 era vicino a $100, quindi probabilmente andava bene. (Una volta che l'ho spinto a considerare specificamente i blocker come un potenziale problema, ha riconosciuto che l'algoritmo in effetti non li stava considerando correttamente.) Codex non era molto meglio su questo e ha incontrato il suo insieme di bug (interessantemente) distinti e errori algoritmici che ho dovuto affrontare con attenzione. Fortunatamente, sono riuscito a risolverli perché sono un esperto di risolutori di poker, ma non penso che ci siano molte altre persone che avrebbero potuto avere successo nel creare questo risolutore utilizzando strumenti di codifica AI. L'esperienza più frustrante è stata creare un'interfaccia grafica. Dopo una dozzina di scambi, né Codex né Claude Code sono stati in grado di realizzare il frontend che avevo richiesto, anche se quello di Claude Code era almeno più carino. Non ho esperienza nel frontend, quindi forse quello che chiedevo semplicemente non era possibile, ma se fosse stato così, avrei voluto che mi avessero *detto* che era difficile o impossibile invece di continuare a fare implementazioni rotte o cose che non avevo richiesto. Mi ha messo in evidenza quanto ci sia ancora una grande differenza tra lavorare con un compagno umano e lavorare con un'AI. Dopo che le implementazioni iniziali erano complete e debuggate, ho chiesto a Codex e Claude Code di creare versioni ottimizzate in C++. Su questo, Codex ha fatto sorprendentemente bene. La sua versione in C++ era 6 volte più veloce di quella di Claude Code (anche dopo molte iterazioni di richiesta di ulteriori ottimizzazioni). Le ottimizzazioni di Codex non erano ancora buone come quelle che avrei potuto fare, ma d'altra parte ho trascorso 6 anni di dottorato a creare bot per il poker. In generale, ho pensato che Codex abbia fatto un lavoro impressionante su questo. La mia richiesta finale è stata chiedere alle AI se potessero inventare algoritmi nuovi che potessero risolvere i fiumi NLTH ancora più velocemente. Nessuno dei due ha avuto successo in questo, il che non era sorprendente. Gli LLM stanno migliorando rapidamente, ma sviluppare algoritmi nuovi per questo tipo di cose è un progetto di ricerca che richiede mesi per un esperto umano. Gli LLM non sono ancora a quel livello.