1/ Gęste MLP są kłamstwem. Standardowe transformery, które trenujemy, już wykonują rzadkie routowanie wewnątrz swoich warstw feedforward—po prostu nie mogliśmy tego zobaczyć aż do teraz. 🧵