Durante las vacaciones de vacaciones, hice vibecode un solucionador de río de póker de código abierto. El código está 100% escrito por Codex, y también hice una versión con Claude Code para comparar. En general, estas herramientas me permitieron iterar mucho más rápido en un dominio que conozco bien. Pero también sentía que no podía confiar plenamente en ellos. Cometían errores y se encontraban con errores, pero en vez de reconocerlo, a menudo pensaban que no era gran cosa o, en ocasiones, simplemente intentaban hacerme creer que no pasaba nada. En una memorable sesión de depuración con Claude Code, le pregunté, como comprobación de cordura, cuál sería el valor esperado de una estrategia de "siempre retirarse" cuando el jugador tiene 100 dólares en el bote. Me dijo que, según su algoritmo, el EV costaba -93 dólares. Cuando le señalé lo raro que era eso, esperando que se diera cuenta por sí mismo de que había un fallo, me tranquilizó diciendo que 93 dólares eran cerca de 100, así que probablemente no pasaba nada. (Cuando le pedí que considerara específicamente los bloqueadores como un posible problema, reconoció que el algoritmo no los estaba contabilizando correctamente.) Codex no fue mucho mejor en esto, y se topó con su propio conjunto de errores (curiosamente) distintos y errores algorítmicos que tuve que resolver con cuidado. Por suerte, pude superar esto porque soy experto en solucionadores de póker, pero no creo que haya muchas otras personas que pudieran haber conseguido crear este solucionador usando herramientas de codificación por IA. La experiencia más frustrante fue crear una interfaz gráfica. Tras una docena de idas y vueltas, ni Codex ni Claude Code pudieron hacer el frontend que solicité, aunque el de Claude Code al menos era más bonito. No tengo experiencia en frontend, así que quizá lo que pedía simplemente no era posible, pero si fuera así, ojalá me hubieran *dicho* que era difícil o imposible en vez de repetir implementaciones rotas o cosas que no solicité. Me hizo ver cómo sigue habiendo una gran diferencia entre trabajar con un compañero humano y trabajar con una IA. Una vez completadas y depuradas las implementaciones iniciales, pedí a Codex y Claude Code que crearan versiones optimizadas para C++. En esto, Codex lo hizo sorprendentemente bien. Su versión en C++ era 6 veces más rápida que la de Claude Code (incluso tras múltiples iteraciones de peticiones para optimizaciones adicionales). Las optimizaciones de Codex seguían sin ser tan buenas como las que yo podía hacer, pero claro, pasé 6 años de doctorado creando bots de póker. En general, creo que Codex hizo un trabajo impresionante en esto. Mi última petición fue preguntar a las IAs si podían crear algoritmos novedosos que resolvieran ríos NLTH aún más rápido. Ninguno de los dos lo consiguió, lo cual no fue sorprendente. Los LLMs están mejorando rápidamente, pero desarrollar algoritmos novedosos para este tipo de cosas es un proyecto de investigación de meses para un experto humano. Los LLMs aún no están a ese nivel.