評価の実験の山の登りは、プロンプトや問題を評価のようにフォーマットすべきだということです