Tři dny s přestávkami používám Claudeův kód (opus 4.5) a snažím se projít klasickým statistickým experimentem Často přichází s hackovými nápady, spouští simulace s jemnými chybami nebo vybírá podivné degenerované hyperparametry jako odměnu za hack Když provádí experiment, má opravdu špatný detektor nesmyslů a předává mi výsledky, které neprojdou testem vůně Docela překvapivé vzhledem k mým zkušenostem s Claudem v jiných oblastech Pokročil jsem ve zlepšení postroje, ale částečně je to jen proto, že model se zdá být špatný v experimentálních statistikách mimo vzorek