Eu codifiquei um solucionador de poker river de código aberto durante as férias. O código é 100% escrito pelo Codex, e eu também fiz uma versão com o Claude Code para comparar. No geral, essas ferramentas me permitiram iterar muito mais rápido em um domínio que conheço bem. Mas também senti que não podia confiar totalmente nelas. Elas cometiam erros e encontravam bugs, mas em vez de reconhecer isso, muitas vezes pensavam que não era um grande problema ou, em algumas ocasiões, tentavam me manipular para pensar que nada estava errado. Em uma sessão de depuração memorável com o Claude Code, eu perguntei, como um teste de sanidade, qual seria o valor esperado de uma estratégia de "sempre desistir" quando o jogador tem $100 no pote. Ele me disse que, de acordo com seu algoritmo, o EV era -$93. Quando apontei o quão estranho isso era, esperando que ele percebesse por conta própria que havia um bug, ele me tranquilizou que $93 estava perto de $100, então provavelmente estava tudo bem. (Uma vez que eu o incentivei a considerar especificamente os blockers como um potencial problema, ele reconheceu que o algoritmo realmente não estava levando isso em conta corretamente.) O Codex não foi muito melhor nisso e encontrou seu próprio conjunto de bugs (interessantemente) distintos e erros algorítmicos que eu tive que resolver cuidadosamente. Felizmente, consegui trabalhar através disso porque sou um especialista em solucionadores de poker, mas não acho que haja muitas outras pessoas que poderiam ter conseguido fazer esse solucionador usando ferramentas de codificação de IA. A experiência mais frustrante foi fazer uma GUI. Depois de uma dúzia de idas e vindas, nem o Codex nem o Claude Code conseguiram fazer o frontend que eu pedi, embora o do Claude Code fosse pelo menos mais bonito. Eu sou inexperiente em frontend, então talvez o que eu estava pedindo simplesmente não fosse possível, mas se esse fosse o caso, eu gostaria que eles tivessem *me dito* que era difícil ou impossível, em vez de repetidamente fazer implementações quebradas ou coisas que eu não pedi. Isso me destacou como ainda há uma grande diferença entre trabalhar com um colega humano e trabalhar com uma IA. Depois que as implementações iniciais foram concluídas e depuradas, pedi ao Codex e ao Claude Code que criassem versões otimizadas em C++. Nesse aspecto, o Codex se saiu surpreendentemente bem. Sua versão em C++ era 6x mais rápida que a do Claude Code (mesmo após várias iterações de solicitações para mais otimizações). As otimizações do Codex ainda não eram tão boas quanto as que eu poderia fazer, mas, por outro lado, passei 6 anos de doutorado fazendo bots de poker. No geral, achei que o Codex fez um trabalho impressionante nisso. Meu pedido final foi perguntar às IAs se elas poderiam criar algoritmos novos que pudessem resolver rios de NLTH ainda mais rápido. Nenhum deles teve sucesso nisso, o que não foi surpreendente. Os LLMs estão melhorando rapidamente, mas desenvolver algoritmos novos para esse tipo de coisa é um projeto de pesquisa que leva meses para um especialista humano. Os LLMs ainda não estão nesse nível.