Các mô hình ngôn ngữ có thể học các prior hữu ích mà không bao giờ thấy ngôn ngữ không? Chúng tôi đã tiền huấn luyện các transformer trên các tự động tế bào thần kinh - hoàn toàn tổng hợp, không có ngôn ngữ. Điều này cải thiện mô hình ngôn ngữ lên đến 6%, tăng tốc độ hội tụ lên 40%, và củng cố khả năng suy luận ở các giai đoạn sau. Thật bất ngờ, nó thậm chí còn vượt qua việc tiền huấn luyện trên văn bản tự nhiên! Blog: (1/n)