1/ Víme, že Transformers selhávají při rozsáhlé extrapolaci. Nový výzkum však ukazuje hlubší nedostatek: selhávají ve sledování stavu IN-DISTRIBUTION. Neučí se algoritmická pravidla, jen si pamatují izolované obvody na délku. 🧵