Це вразило мене 🤯 Я щойно переглянув статтю MIT про ARC, і це повністю змінило моє бачення бенчмарку. Дослідники зовсім не розглядали ARC як логічну головоломку. Вони сприймали кожне завдання як візуальну трансформацію. Сітка всередині → сітці назовні. Нічого складнішого. Вони створили невеликий Vision Transformer, навчили його з нуля на крихітному наборі даних ARC і використали простий прийом на полотні, щоб розмістити кожен екземпляр як зображення. Потім додали зміни масштабу, переклади та базові візуальні попередні, які можна побачити в класичних роботах комп'ютерного зору. Ось і все. Жодного ланцюга думок, жодних підказок, жодних хитрих символічних трюків. Просто модель, що дивиться на пікселі і вивчає рух, перевертання форм, зростання, руйнування або перенесення. Дика? Ця маленька модель має 54,5% самостійне покриття і 60,4% у поєднанні з U-Net. Це приблизно середній показник людської продуктивності з моделлю, яка підходить за розміром маленького мобільного додатку. Коли ARC вирішено таким чином, весь бенчмарк відчувається інакше. Завдання раптом виглядають як зображення, а не приховані правила. Завдання на рефлексію насправді виглядають як відображення. Завдання на симетрію виглядають як симетрія. Гравітаційні завдання виглядають як частини, що «падають» прямо по полотну. ...