Folosesc Claude Code (opus 4.5) de trei zile, cu pauze, încercând să parcurg un experiment clasic de statistică Adesea vine cu idei hack-y, rulează simulări cu bug-uri subtile sau selectează hiperparametri ciudați și degenerați pentru a recompensa hack-ul De asemenea, când rulează un experiment, are un detector de prostii foarte prost și îmi transmite rezultate care nu trec testul de miros Destul de surprinzător, având în vedere experiențele mele cu Claude în alte domenii Am făcut progrese în îmbunătățirea hamului, dar o parte din asta este doar că modelul pare să fie slab la statisticile experimentale din eșantionul