1/ Dichte MLP's zijn een leugen. De standaard transformers die we trainen doen al aan spars routing binnen hun feedforward lagen—we konden het gewoon niet zien tot nu toe. 🧵