DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Am creat vibecod pentru un solver open source de poker river în vacanța de sărbători. Codul este scris 100% de Codex și am făcut și o versiune cu Claude Code pentru comparație. Per ansamblu, aceste instrumente mi-au permis să iterez mult mai rapid într-un domeniu pe care îl cunosc bine. Dar simțeam și că nu pot avea încredere deplină în ei. Făceau greșeli și întâlneau bug-uri, dar în loc să recunoască, adesea credeau că nu e mare lucru sau, uneori, încercau pur și simplu să mă manipuleze să cred că nu e nimic în neregulă. Într-o sesiune memorabilă de depanare cu Claude Code, l-am întrebat, ca o verificare a sănătății mintale, care ar fi valoarea așteptată a unei strategii "întotdeauna fold" când jucătorul are 100$ în pot. Mi-a spus că, conform algoritmului său, EV-ul costa -93 de dolari. Când i-am arătat cât de ciudat era, sperând că va realiza singur că există un bug, m-a liniștit că 93 de dolari era aproape de 100 de dolari, deci probabil era în regulă. (Odată ce i-am cerut să ia în considerare în mod specific blocatorii ca o problemă potențială, a recunoscut că algoritmul nu îi contabiliza corect.) Codex nu a fost cu mult mai bun la acest capitol și a dat peste propriul set de bug-uri (interesant) distincte și greșeli algoritmice pe care a trebuit să le rezolv cu atenție. Din fericire, am reușit să trec prin acestea pentru că sunt expert în solvere de poker, dar nu cred că sunt mulți alți oameni care ar fi putut reuși să creeze acest solver folosind instrumente de programare AI. Cea mai frustrantă experiență a fost crearea unei interfețe grafice. După o duzină de schimburi de replici, nici Codex, nici Claude Code nu au reușit să facă frontend-ul pe care l-am cerut, deși cel puțin cel al lui Claude Code era mai frumos. Sunt neexperimentat în frontend, așa că poate ceea ce ceream pur și simplu nu era posibil, dar dacă era așa, mi-aș fi dorit să-mi fi *spus* că este dificil sau imposibil, în loc să facă implementări defecte sau lucruri pe care nu le-am cerut. Mi-a arătat cât de mare diferență există între a lucra cu un coechipier uman și a lucra cu o inteligență artificială. După ce implementările inițiale au fost finalizate și depanate, i-am rugat pe Codex și Claude Code să creeze versiuni C++ optimizate. La acest capitol, Codex s-a descurcat surprinzător de bine. Versiunea sa C++ era de 6 ori mai rapidă decât cea a lui Claude Code (chiar și după mai multe iterații de solicitări pentru optimizări suplimentare). Optimizările Codex încă nu erau la fel de bune ca ce puteam face eu, dar, pe de altă parte, am petrecut 6 ani de doctorat făcând boți de poker. Per ansamblu, am considerat că Codex a făcut o treabă impresionantă la acest capitol. Ultima mea cerere a fost să întreb AI-urile dacă pot veni cu algoritmi noi care să rezolve râurile NLTH și mai repede. Niciunul nu a reușit, ceea ce nu a fost surprinzător. LLM-urile se îmbunătățesc rapid, dar dezvoltarea unor algoritmi noi pentru astfel de lucruri este un proiect de cercetare care durează luni de zile pentru un expert uman. LLM-urile nu sunt încă la acel nivel.

Limită superioară

Clasament

Favorite