1/ Dichte MLPs sind eine Lüge. Die Standard-Transformatoren, die wir trainieren, führen bereits sparsames Routing in ihren Feedforward-Schichten durch – wir konnten es nur bis jetzt nicht sehen. 🧵