Jeg vibecodede en åpen kildekode poker-løser i løpet av juleferien. Koden er 100 % skrevet av Codex, og jeg lagde også en versjon med Claude Code for å sammenligne. Alt i alt gjorde disse verktøyene at jeg kunne iterere mye raskere i et område jeg kjenner godt. Men jeg følte også at jeg ikke kunne stole helt på dem. De gjorde feil og støtte på feil, men i stedet for å innrømme det, tenkte de ofte at det ikke var noe stort problem eller, av og til, bare prøvde å manipulere meg til å tro at ingenting var galt. I en minneverdig feilsøkingsøkt med Claude Code spurte jeg den, som en realitetssjekk, hva den forventede verdien av en «alltid fold»-strategi ville være når spilleren har 100 dollar i potten. Den fortalte meg at ifølge algoritmen kostet elbilen -93 dollar. Da jeg påpekte hvor merkelig det var, i håp om at den selv skulle innse at det var en feil, forsikret den meg om at 93 dollar var nær 100 dollar, så det var sannsynligvis greit. (Da jeg ba den om å vurdere blokkere som et potensielt problem, anerkjente den at algoritmen faktisk ikke tok hensyn til dem riktig.) Codex var ikke mye bedre på dette, og støtte på sitt eget sett med (interessant nok) distinkte feil og algoritmiske feil som jeg måtte jobbe nøye gjennom. Heldigvis klarte jeg å jobbe meg gjennom disse fordi jeg er ekspert på pokerløsere, men jeg tror ikke det er mange andre som kunne ha lykkes med å lage denne løsningen ved å bruke AI-kodingsverktøy. Den mest frustrerende opplevelsen var å lage et GUI. Etter et dusin frem og tilbake klarte verken Codex eller Claude Code å lage frontenden jeg ba om, selv om Claude Codes var i det minste penere. Jeg er uerfaren med frontend, så kanskje det jeg ba om rett og slett ikke var mulig, men hvis det var tilfellet, skulle jeg ønske de hadde *sagt* meg at det var vanskelig eller umulig i stedet for å gjentatte ganger lage ødelagte implementasjoner eller ting jeg ikke ba om. Det viste meg hvor stor forskjell det fortsatt er mellom å jobbe med en menneskelig lagkamerat og å jobbe med en AI. Etter at de første implementasjonene var ferdige og feilsøkt, ba jeg Codex og Claude Code om å lage optimaliserte C++-versjoner. På dette gjorde Codex det overraskende bra. Dens C++-versjon var 6 ganger raskere enn Claude Codes (selv etter flere iterasjoner med forespørsler om videre optimaliseringer). Codex sine optimaliseringer var fortsatt ikke like gode som det jeg kunne lage, men jeg brukte seks år på doktorgraden på å lage pokerbots. Alt i alt syntes jeg Codex gjorde en imponerende jobb med dette. Min siste forespørsel var å spørre AI-ene om de kunne komme opp med nye algoritmer som kunne løse NLTH-elver enda raskere. Ingen av dem lyktes med dette, noe som ikke var overraskende. LLM-er blir raskt bedre, men å utvikle nye algoritmer for denne typen ting er et forskningsprosjekt som varer i flere måneder for en menneskelig ekspert. LLM-er er ikke på det nivået ennå.