语言模型能否在没有明确结构训练数据的情况下学习RNA结构?@NatureComms @Tsinghua_Uni "ERNIE-RNA:一种具有结构增强表示的RNA语言模型" • 现有的RNA语言模型忽视了序列中的结构信息,导致特征提取不完整和性能不佳,尽管RNA具有层次结构,初级序列折叠成特定的结构构象,从而决定生物功能。传统的RNA结构预测计算方法面临独特的挑战:基于热力学的方法受限于参数准确性,基于比对的方法在缺乏足够同源序列时难以发挥作用,而深度学习模型在未见过的RNA家族上表现出有限的泛化能力。虽然像RNA-FM(训练于2300万序列)、UNI-RNA(10亿序列,4亿参数)和RiNALMo(3600万序列,6.5亿参数)这样的BERT风格RNA语言模型已经出现,但它们未能充分整合结构信息,其中一些如UTR-LM试图通过整合来自RNAfold的预测结构来解决这一问题,但面临预测错误和泛化能力降低的限制。 • ERNIE-RNA是一个具有8600万参数的RNA预训练语言模型,基于修改后的BERT架构,具有12个变换器块和12个注意力头,训练于2040万非编码RNA序列,这些序列来自RNAcentral,经过过滤长度超过1022个核苷酸的序列,并在100%相似度下应用CD-HIT冗余去除。该模型结合了基于碱基配对的注意力偏置机制,在全对全的配对位置矩阵中为AU对分配值2,为CG对分配值3,为GU对分配可调参数α(初始值为0.8),替代了第一个变换器层中的偏置项。预训练使用掩蔽语言建模,随机替换15%的标记,使用24个32G-V100 GPU训练20天,使用fairseq,基础学习率为0.0001,20000个预热步骤和0.01的权重衰减,生成注意力图(L×L×156)和标记嵌入(12×768×L)作为输出。 • ERNIE-RNA的注意力图展示了零样本RNA二级结构预测能力,在bpRNA-1m测试集上的中位F1分数为0.552,超越了RNAfold(0.492)、RNAstructure(0.491)、RNAErnie(0.440)和RNA-BERT(0.365),且无需微调。经过微调后,ERNIE-RNA在bpRNA-1m上达到了最先进的宏平均F1分数0.873,超越了RiNALMo(0.850,6.5亿参数)和UNI-RNA(0.821,4亿参数),在ArchiveII(0.954对RiNALMo的0.892)和RIVAS TestSetB(0.721对RiNALMo的0.555)上也表现出类似的领先。在具有挑战性的跨家族泛化测试中,ERNIE-RNA冻结模型在bpRNA-new上达到了0.646的F1分数,在RNA3DB-2D上达到了0.590,超越了传统的动态规划方法如Eternafold(0.639),并在所有深度学习竞争者中保持优势。ERNIE-RNA在各种下游任务中也表现出色:RNA接触图预测的Top-L/1精度为0.68(对比RNAcontact的集成为0.46),5'UTR MRL预测在随机测试集上的R²为0.92,在人类测试集上的R²为0.86,RNA-蛋白结合预测超越所有测试方法,ncRNA家族分类准确率为0.9844(0%边界噪声)和0.9820(200%边界噪声),剪接位点预测F1分数在四个物种间范围为0.9180到0.9612,SpliceAI数据集的top-K准确率为55.37%(对比RNA-FM的34.84%),替代多腺苷酸化预测的R²为78.39%(对比RNA-FM的70.32%)。 作者:Weijie Yin, Zhaoyu Zhang, Shuo Zhang, Liang He等,Xuegong Zhang, Tao Qin & Zhen Xie 链接: