Nó bắt đầu trở nên đáng sợ khi các mô hình bắt đầu hoạt động rất tốt trên các tiêu chuẩn mà bạn nghĩ sẽ mất nhiều năm. Như bạn có ý nghĩa gì khi nói rằng các mô hình đang đạt 30-40% trên ARC AGI 2, trong khi chúng chỉ vừa mới đạt 40% trên ARC AGI 1 vào đầu năm nay. Tôi đã làm việc với và trên ARC trong nhiều năm. Đây là một tiến bộ chưa từng có ngay cả khi đào tạo trên một bộ kiểm tra.