Ми оновлюємо спосіб вимірювання часових горизонтів моделей у програмних завданнях (TH 1.0→1.1). Оновлена методологія включає більше завдань від HCAST, збільшивши нашу загальну кількість з 170 до 228. Це призводить до більш жорстких оцінок, особливо на довгих горизонтах.