Eu fiz vibecode em um solucionador de poker de rios de código aberto durante as férias de fim de ano. O código é 100% escrito pela Codex, e também fiz uma versão com Claude Code para comparar. No geral, essas ferramentas me permitiram iterar muito mais rápido em um domínio que conheço bem. Mas também sentia que não podia confiar totalmente neles. Eles cometiam erros e encontravam bugs, mas em vez de reconhecer, muitas vezes achavam que não era nada demais ou, de vez em quando, simplesmente tentavam me manipular para pensar que não havia nada errado. Em uma sessão memorável de depuração com Claude Code, perguntei, como um teste de sanidade, qual seria o valor esperado de uma estratégia de "sempre desistir" quando o jogador tem $100 no pote. Ele me disse que, segundo o algoritmo dele, o EV custava -$93. Quando apontei o quão estranho era isso, esperando que ele percebesse sozinho que havia um bug, me tranquilizou que $93 era quase $100, então provavelmente estava tudo bem. (Quando pedi para considerar especificamente bloqueadores como um possível problema, ele reconheceu que o algoritmo realmente não estava contabilizando eles corretamente.) A Codex não foi muito melhor nisso e encontrou seu próprio conjunto de bugs (curiosamente) distintos e erros algorítmicos que precisei resolver cuidadosamente. Felizmente, consegui resolver isso porque sou especialista em solucionadores de pôquer, mas não acho que muitas outras pessoas poderiam ter conseguido criar esse solucionador usando ferramentas de codificação por IA. A experiência mais frustrante foi criar uma interface gráfica. Depois de uma dúzia de trocas, nem Codex nem Claude Code conseguiram fazer o frontend que eu pedi, embora o de Claude Code fosse pelo menos mais bonito. Sou inexperiente em frontend, então talvez o que eu estava pedindo simplesmente não fosse possível, mas se fosse esse o caso, gostaria que eles tivessem me *dito* que era difícil ou impossível, em vez de repetir implementações quebradas ou coisas que eu não pedi. Isso me mostrou como ainda há uma grande diferença entre trabalhar com um colega humano e trabalhar com uma IA. Depois que as implementações iniciais foram concluídas e depuradas, pedi à Codex e à Claude Code que criassem versões otimizadas para C++. Nesse aspecto, Codex se saiu surpreendentemente bem. Sua versão em C++ era 6 vezes mais rápida que a do Claude Code (mesmo após várias iterações de solicitações para otimizações adicionais). As otimizações da Codex ainda não eram tão boas quanto eu poderia fazer, mas, por outro lado, passei 6 anos de doutorado criando bots de pôquer. No geral, achei que a Codex fez um trabalho impressionante nisso. Meu pedido final foi pedir às IAs se poderiam criar algoritmos inovadores que resolvessem rios NLTH ainda mais rápido. Nenhum dos dois conseguiu isso, o que não foi surpreendente. LLMs estão melhorando rapidamente, mas desenvolver algoritmos inovadores para esse tipo de coisa é um projeto de pesquisa de meses para um especialista humano. Os LLMs ainda não chegaram a esse nível.