Bài báo MIT này đã khiến tôi choáng váng 🤯 Bài báo nói về "ARC" và nó hoàn toàn thay đổi cách tôi nhìn nhận về tiêu chuẩn đánh giá. Các nhà nghiên cứu không coi ARC như một câu đố logic chút nào. Họ coi mỗi nhiệm vụ như một sự biến đổi hình ảnh. Lưới vào → lưới ra. Không có gì phức tạp hơn thế. Họ đã xây dựng một Vision Transformer nhỏ, đào tạo từ đầu trên tập dữ liệu nhỏ của ARC, và sử dụng một mẹo canvas đơn giản để đặt mỗi ví dụ như một hình ảnh. Sau đó, họ thêm các thay đổi về quy mô, dịch chuyển, và các ưu tiên hình ảnh cơ bản mà bạn sẽ thấy trong công việc thị giác máy tính cổ điển. Chỉ vậy thôi. Không có chuỗi suy nghĩ, không có gợi ý, không có mẹo biểu tượng thông minh. Chỉ là một mô hình nhìn vào các pixel và học cách mà các hình dạng di chuyển, lật, phát triển, sụp đổ, hoặc chuyển giao. Phần thú vị? Mô hình nhỏ này đạt 54,5% một mình và 60,4% khi kết hợp với một U-Net. Đó là khoảng hiệu suất trung bình của con người với một mô hình vừa vặn trong kích thước của một ứng dụng di động nhỏ. Thấy ARC được giải quyết theo cách này khiến toàn bộ tiêu chuẩn đánh giá cảm thấy khác biệt. Các nhiệm vụ đột nhiên trông giống như các ánh xạ hình ảnh thay vì các quy tắc ẩn. Các nhiệm vụ phản chiếu thực sự trông giống như các phản chiếu. Các nhiệm vụ đối xứng trông giống như đối xứng. Các nhiệm vụ trọng lực trông giống như các mảnh "rơi" thẳng xuống canvas. ...