To mě 🤯 úplně ohromilo Právě jsem prošel článek na MIT o ARC a úplně mi to změnilo pohled na benchmark. Výzkumníci ARC vůbec nebrali jako logickou hádanku. Každý úkol brali jako vizuální proměnu. Mřížka dovnitř → mřížka ven. Nic složitějšího než to. Postavili malý Vision Transformer, natrénovali ho od nuly na malém datasetu ARC a použili jednoduchý trik s plátnem, aby každý příklad umístili jako obrázek. Pak přidali změny škály, translace a základní vizuální předpoklady, které byste viděli v klasické práci s počítačovým viděním. To je vše. Žádné myšlenkové řetězce, žádné podněty, žádné chytré symbolické triky. Jen model, který se dívá na pixely a učí se, jak se tvary pohybují, převracejí, rostou, kolabují nebo se přenášejí dál. Ta divoká část? Tento malý model dosahuje 54,5 % samotného a 60,4 % v kombinaci s U-Net. To je přibližně průměrný lidský výkon s modelem, který se vejde do velikosti malé mobilní aplikace. Když vidím ARC vyřešené tímto způsobem, celý benchmark působí jinak. Úkoly najednou vypadají jako mapování obrázků místo skrytých pravidel. Úkoly reflexe skutečně vypadají jako reflexe. Úlohy symetrie vypadají jako symetrie. Gravitační úkoly vypadají jako dílky "padající" přímo po plátně. ...