1/ Husté MLP jsou lež. Standardní transformátory, které trénujeme, už mají řídké směrování uvnitř svých feedforward vrstev – jen jsme to dosud neviděli. 🧵