1/ Плотные MLP — это ложь. Стандартные трансформеры, которые мы обучаем, уже выполняют разреженную маршрутизацию внутри своих прямых слоев — мы просто не могли это увидеть до сих пор. 🧵