1/ Știm că Transformers eșuează la extrapolarea pe termen lung. Dar cercetări noi arată o vulnerabilitate mai profundă: eșuează la urmărirea stării IN-DISTRIBUTION. Nu învață reguli algoritmice, ci doar memorează circuite izolate pe lungime. 🧵