語言模型能否在沒有明確結構訓練數據的情況下學習RNA結構?@NatureComms @Tsinghua_Uni "ERNIE-RNA:一種具有結構增強表示的RNA語言模型" • 現有的RNA語言模型忽略了序列中的結構信息,導致特徵提取不完整和性能不佳,儘管RNA具有層次組織,主要序列摺疊成特定的結構構象,決定生物功能。傳統的RNA結構預測計算方法面臨著不同的挑戰:基於熱力學的方法受限於參數準確性,基於比對的方法在缺乏足夠同源序列的情況下掙扎,而深度學習模型對未見RNA家族的泛化能力有限。雖然像RNA-FM(訓練於2300萬序列)、UNI-RNA(10億序列,4億參數)和RiNALMo(3600萬序列,6.5億參數)等BERT風格的RNA語言模型已經出現,但它們未能充分納入結構信息,其中一些如UTR-LM試圖通過納入來自RNAfold的預測結構來解決此問題,但面臨預測錯誤和降低的泛化能力的限制。 • ERNIE-RNA是一個擁有8600萬參數的RNA預訓練語言模型,基於修改過的BERT架構,具有12個變壓器塊和12個注意力頭,訓練於2040萬非編碼RNA序列,來自RNAcentral,過濾掉長於1022個核苷酸的序列,並在100%相似度下應用CD-HIT冗餘去除。該模型納入了一種基於配對的注意力偏置機制,為AU對分配值2,CG對分配值3,並為GU對分配可調參數α(最初為0.8)在全對全的配對位置矩陣中,替換第一個變壓器層中的偏置項。預訓練使用了掩碼語言建模,隨機替換15%的標記,使用24個32G-V100 GPU訓練20天,使用fairseq,基礎學習率為0.0001,20000個預熱步驟,0.01的權重衰減,生成注意力圖(L×L×156)和標記嵌入(12×768×L)作為輸出。 • ERNIE-RNA的注意力圖展示了零樣本RNA二級結構預測能力,在bpRNA-1m測試集上的中位F1分數為0.552,超越了RNAfold(0.492)、RNAstructure(0.491)、RNAErnie(0.440)和RNA-BERT(0.365),無需微調。經過微調後,ERNIE-RNA在bpRNA-1m上達到了0.873的最新宏平均F1分數,超越了RiNALMo(0.850,6.5億參數)和UNI-RNA(0.821,4億參數),在ArchiveII(0.954對RiNALMo的0.892)和RIVAS TestSetB(0.721對RiNALMo的0.555)上也保持了類似的領先地位。在具有挑戰性的跨家族泛化測試中,ERNIE-RNA frozen在bpRNA-new上達到了0.646的F1分數,在RNA3DB-2D上達到了0.590,超越了傳統的動態編程方法如Eternafold(0.639),並在所有深度學習競爭者中保持優勢。ERNIE-RNA在各種下游任務中也表現出色:RNA接觸圖預測的Top-L/1精度為0.68(對比RNAcontact的集成0.46),5'UTR MRL預測在隨機測試集上的R²為0.92,在人類測試集上的R²為0.86,RNA-蛋白質結合預測超越了所有測試方法,ncRNA家族分類準確率為0.9844(0%邊界噪聲)和0.9820(200%邊界噪聲),剪接位點預測F1分數在四個物種之間範圍為0.9180到0.9612,SpliceAI數據集的top-K準確率為55.37%(對比RNA-FM的34.84%),替代聚腺苷酸化預測的R²為78.39%(對比RNA-FM的70.32%)。 作者:Weijie Yin, Zhaoyu Zhang, Shuo Zhang, Liang He等,Xuegong Zhang, Tao Qin & Zhen Xie 鏈接: