1/ Tiedämme, että Transformerit epäonnistuvat pitkän ekstrapoloinnin yhteydessä. Mutta uusi tutkimus osoittaa syvemmän puutteen: ne epäonnistuvat IN-DISTRIBUTION-tilan seurannassa. He eivät opi algoritmisia sääntöjä, vaan muistavat eristetyt piirit pituuden mukaan. 🧵