1/ MLP dày đặc là một lời nói dối. Các transformer tiêu chuẩn mà chúng ta huấn luyện đã thực hiện định tuyến thưa bên trong các lớp feedforward của chúng—chúng ta chỉ không thể thấy điều đó cho đến bây giờ. 🧵