Kann ein Sprachmodell die RNA-Struktur ohne explizite strukturelle Trainingsdaten lernen?@NatureComms @Tsinghua_Uni "ERNIE-RNA: ein RNA-Sprachmodell mit strukturell verbesserten Repräsentationen" • Bestehende RNA-Sprachmodelle übersehen strukturelle Informationen in Sequenzen, was zu unvollständiger Merkmalsextraktion und suboptimaler Leistung führt, trotz der hierarchischen Organisation von RNA, bei der primäre Sequenzen in spezifische strukturelle Konformationen gefaltet werden, die biologische Funktionen bestimmen. Traditionelle rechnergestützte Ansätze zur Vorhersage der RNA-Struktur stehen vor besonderen Herausforderungen: Thermodynamik-basierte Methoden sind durch die Genauigkeit der Parameter eingeschränkt, alignierungsbasierte Methoden haben Schwierigkeiten ohne ausreichende homologe Sequenzen, und Deep-Learning-Modelle zeigen eine begrenzte Generalisierbarkeit auf unbekannte RNA-Familien. Während BERT-ähnliche RNA-Sprachmodelle wie RNA-FM (trainiert auf 23 Millionen Sequenzen), UNI-RNA (1 Milliarde Sequenzen, 400M Parameter) und RiNALMo (36M Sequenzen, 650M Parameter) entstanden sind, versäumen sie es, strukturelle Informationen angemessen zu integrieren, wobei einige wie UTR-LM versuchen, dies zu adressieren, indem sie vorhergesagte Strukturen von RNAfold einbeziehen, jedoch Einschränkungen durch Vorhersagefehler und reduzierte Generalisierbarkeit haben. • ERNIE-RNA ist ein RNA-vortrainiertes Sprachmodell mit 86 Millionen Parametern, das auf einer modifizierten BERT-Architektur mit 12 Transformatorblöcken und 12 Aufmerksamkeitsköpfen basiert, trainiert auf 20,4 Millionen nicht-kodierenden RNA-Sequenzen von RNAcentral, nachdem Sequenzen länger als 1022 Nukleotide gefiltert und eine CD-HIT-Redundanzentfernung bei 100% Ähnlichkeit angewendet wurde. Das Modell integriert einen auf Basenpaarung basierenden Aufmerksamkeitsbias-Mechanismus, der Werte von 2 für AU-Paare, 3 für CG-Paare und einen einstellbaren Parameter α (anfänglich 0,8) für GU-Paare in einer All-gegen-Alle-Paarweise-Positionsmatrix zuweist, wobei der Bias-Term in der ersten Transformator-Schicht ersetzt wird. Das Vortraining verwendete maskiertes Sprachmodellieren mit 15% der Tokens, die zufällig ersetzt wurden, trainiert über 20 Tage auf 24 32G-V100 GPUs mit fairseq bei einer Basis-Lernrate von 0,0001, 20.000 Aufwärmschritten und 0,01 Gewichtszunahme, wobei sowohl Aufmerksamkeitskarten (L×L×156) als auch Token-Embeddings (12×768×L) als Ausgaben generiert wurden. • Die Aufmerksamkeitskarten von ERNIE-RNA zeigten die Fähigkeit zur Null-Schuss-Vorhersage der RNA-Sekundärstruktur mit einem medianen F1-Score von 0,552 im bpRNA-1m-Testset und übertrafen RNAfold (0,492), RNAstructure (0,491), RNAErnie (0,440) und RNA-BERT (0,365) ohne Feinabstimmung. Nach der Feinabstimmung erreichte ERNIE-RNA einen Stand der Technik mit makro- Durchschnitts-F1-Scores von 0,873 im bpRNA-1m, übertraf RiNALMo (0,850, 650M Parameter) und UNI-RNA (0,821, 400M Parameter) und zeigte ähnliche Führungspositionen bei ArchiveII (0,954 gegenüber RiNALMos 0,892) und RIVAS TestSetB (0,721 gegenüber RiNALMos 0,555). Bei herausfordernden Generalisierungstests über Familien hinweg erzielte ERNIE-RNA gefroren F1-Scores von 0,646 im bpRNA-new und 0,590 im RNA3DB-2D, übertraf traditionelle dynamische Programmiermethoden wie Eternafold (0,639) und behielt die Überlegenheit über alle Deep-Learning-Wettbewerber. ERNIE-RNA erzielte auch überlegene Leistungen in verschiedenen nachgelagerten Aufgaben: Vorhersage von RNA-Kontaktkarten mit einer Top-L/1-Präzision von 0,68 (gegenüber dem Ensemble von RNAcontact mit 0,46), Vorhersage von 5'UTR MRL mit R² von 0,92 im zufälligen Testset und 0,86 im menschlichen Testset, RNA-Protein-Bindungsvorhersage, die alle getesteten Methoden übertraf, Klassifizierungsgenauigkeiten von ncRNA-Familien von 0,9844 (0% Grenzrauschen) und 0,9820 (200% Grenzrauschen), F1-Scores für die Vorhersage von Spleißstellen, die von 0,9180 bis 0,9612 über vier Arten reichten, Top-K-Genauigkeit von 55,37% im SpliceAI-Datensatz (gegenüber 34,84% von RNA-FM) und Vorhersage von alternativer Polyadenylierung mit R² von 78,39% (gegenüber 70,32% von RNA-FM). Autoren: Weijie Yin, Zhaoyu Zhang, Shuo Zhang, Liang He et. al Xuegong Zhang, Tao Qin & Zhen Xie Link: