古典的な統計学の実験を進めようと、3日間断続的にClaudeコード(作品4.5)を使っています しばしばハック的なアイデアを思いついたり、微妙なバグのあるシミュレーションを実行したり、ハックを報酬として奇妙で退化したハイパーパラメータを選択したりします また、実験を行うと非常に悪い嘘検出器を持ち、臭いを通らない結果を私に伝えてきます 他の分野でClaudeを使った経験を考えると、かなり驚きです ハーネスの改良には進展がありましたが、その一部はモデルがサンプル外の実験統計に苦手なのです