训练一个语言模型,看到他们甚至还没有发明的 Unicode 字符