Kan een taalmodel de RNA-structuur leren zonder expliciete structurele trainingsdata?@NatureComms @Tsinghua_Uni "ERNIE-RNA: een RNA-taalmodel met structuurversterkte representaties" • Bestaande RNA-taalmodellen negeren structurele informatie in sequenties, wat leidt tot onvolledige feature-extractie en suboptimale prestaties, ondanks de hiërarchische organisatie van RNA waarbij primaire sequenties zich vouwen in specifieke structurele conformaties die biologische functies bepalen. Traditionele computationele benaderingen voor RNA-structuurvoorspelling staan voor verschillende uitdagingen: thermodynamica-gebaseerde methoden zijn beperkt door parameter nauwkeurigheid, alignement-gebaseerde methoden hebben moeite zonder voldoende homologe sequenties, en deep learning-modellen tonen beperkte generalisatie naar ongeziene RNA-families. Terwijl BERT-stijl RNA-taalmodellen zoals RNA-FM (getraind op 23 miljoen sequenties), UNI-RNA (1 miljard sequenties, 400M parameters) en RiNALMo (36M sequenties, 650M parameters) zijn opgekomen, slagen ze er niet in om structurele informatie adequaat te integreren, waarbij sommige zoals UTR-LM proberen dit aan te pakken door voorspelde structuren van RNAfold op te nemen, maar tegen beperkingen aanlopen door voorspellingsfouten en verminderde generalisatiecapaciteit. • ERNIE-RNA is een RNA voorgetraind taalmodel met 86 miljoen parameters, gebaseerd op een gemodificeerde BERT-architectuur met 12 transformerblokken en 12 aandachtshoofden, getraind op 20,4 miljoen niet-coderende RNA-sequenties van RNAcentral na filtering van sequenties langer dan 1022 nucleotiden en het toepassen van CD-HIT-redundantie verwijdering bij 100% gelijkenis. Het model bevat een base-pairing-geïnformeerd aandacht-biasmechanisme dat waarden van 2 toekent voor AU-paren, 3 voor CG-paren, en een instelbare parameter α (aanvankelijk 0.8) voor GU-paren in een all-against-all pair-wise positie matrix, waarbij de bias-term in de eerste transformerlaag wordt vervangen. Voortraining gebruikte gemaskeerde taalmodellering met 15% van de tokens willekeurig vervangen, getraind gedurende 20 dagen op 24 32G-V100 GPU's met fairseq met een basis leersnelheid van 0.0001, 20.000 opwarmstappen en 0.01 gewichtsafname, wat zowel aandachtkaarten (L×L×156) als token-embeddings (12×768×L) als output genereerde. • De aandachtkaarten van ERNIE-RNA toonden een zero-shot RNA secundaire structuurvoorspellingscapaciteit met een mediaan F1-score van 0.552 op de bpRNA-1m testset, wat beter presteert dan RNAfold (0.492), RNAstructure (0.491), RNAErnie (0.440) en RNA-BERT (0.365) zonder fine-tuning. Na fine-tuning bereikte ERNIE-RNA state-of-the-art macro-gemiddelde F1-scores van 0.873 op bpRNA-1m, wat RiNALMo (0.850, 650M parameters) en UNI-RNA (0.821, 400M parameters) overtrof, met vergelijkbare leiding op ArchiveII (0.954 vs RiNALMo's 0.892) en RIVAS TestSetB (0.721 vs RiNALMo's 0.555). Bij uitdagende cross-familie generalisatietests behaalde ERNIE-RNA frozen F1-scores van 0.646 op bpRNA-new en 0.590 op RNA3DB-2D, wat beter presteert dan traditionele dynamische programmeermethoden zoals Eternafold (0.639) en de superioriteit behoudt ten opzichte van alle deep learning concurrenten. ERNIE-RNA behaalde ook superieure prestaties op diverse downstream-taken: RNA contactmapvoorspelling met Top-L/1 precisie van 0.68 (vs RNAcontact's ensemble op 0.46), 5'UTR MRL-voorspelling met R² van 0.92 op willekeurige testset en 0.86 op menselijke testset, RNA-eiwitbindingvoorspelling die alle geteste methoden overtreft, ncRNA-familieclassificatie nauwkeurigheden van 0.9844 (0% grensruis) en 0.9820 (200% grensruis), splice site voorspelling F1-scores variërend van 0.9180 tot 0.9612 over vier soorten, top-K nauwkeurigheid van 55.37% op de SpliceAI dataset (vs RNA-FM's 34.84%), en alternatieve polyadenylering voorspelling R² van 78.39% (vs RNA-FM's 70.32%). Auteurs: Weijie Yin, Zhaoyu Zhang, Shuo Zhang, Liang He et. al Xuegong Zhang, Tao Qin & Zhen Xie Link: