Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bisakah model bahasa mempelajari struktur RNA tanpa data pelatihan struktural eksplisit?@NatureComms @Tsinghua_Uni
"ERNIE-RNA: model bahasa RNA dengan representasi yang ditingkatkan struktur"
• Model bahasa RNA yang ada mengabaikan informasi struktural dalam urutan, yang mengarah pada ekstraksi fitur yang tidak lengkap dan kinerja yang tidak optimal, meskipun organisasi hierarkis RNA di mana urutan primer dilipat menjadi konformasi struktural tertentu yang menentukan fungsi biologis. Pendekatan komputasi tradisional untuk prediksi struktur RNA menghadapi tantangan yang berbeda: metode berbasis termodinamika dibatasi oleh akurasi parameter, metode berbasis penyelarasan berjuang tanpa urutan homolog yang memadai, dan model pembelajaran mendalam menunjukkan generalisasi terbatas ke keluarga RNA yang tidak terlihat. Sementara model bahasa RNA gaya BERT seperti RNA-FM (dilatih pada 23 juta urutan), UNI-RNA (1 miliar urutan, parameter 400M), dan RiNALMo (urutan 36M, parameter 650M) telah muncul, mereka gagal menggabungkan informasi struktural secara memadai, dengan beberapa seperti UTR-LM mencoba mengatasi ini dengan menggabungkan struktur yang diprediksi dari RNAfold tetapi menghadapi keterbatasan dari kesalahan prediksi dan berkurangnya kemampuan generalisasi.
• ERNIE-RNA adalah model bahasa pra-terlatih RNA 86 juta parameter berdasarkan arsitektur BERT yang dimodifikasi dengan 12 blok transformator dan 12 kepala perhatian, dilatih pada 20,4 juta urutan RNA non-coding dari RNAcentral setelah menyaring urutan yang lebih panjang dari 1022 nukleotida dan menerapkan penghapusan redundansi CD-HIT pada kesamaan 100%. Model ini menggabungkan mekanisme bias perhatian yang diinformasikan pasangan dasar yang menetapkan nilai 2 untuk pasangan AU, 3 untuk pasangan CG, dan parameter yang dapat disetel α (awalnya 0,8) untuk pasangan GU dalam matriks posisi berpasangan semua-lawan-semua, menggantikan istilah bias di lapisan transformator pertama. Pra-pelatihan menggunakan pemodelan bahasa bertopeng dengan 15% token diganti secara acak, dilatih selama 20 hari pada 24 GPU 32G-V100 menggunakan fairseq dengan tingkat pembelajaran dasar 0,0001, 20.000 langkah pemanasan, dan peluruhan bobot 0,01, menghasilkan peta perhatian (L×L×156) dan penyematan token (12×768×L) sebagai output.
• Peta perhatian ERNIE-RNA menunjukkan kemampuan prediksi struktur sekunder RNA nol-tembakan dengan skor F1 rata-rata 0,552 pada set uji bpRNA-1m, mengungguli RNAfold (0,492), struktur RNA (0,491), RNAErnie (0,440), dan RNA-BERT (0,365) tanpa penyetelan halus. Setelah penyempurnaan, ERNIE-RNA mencapai skor F1 rata-rata makro canggih sebesar 0,873 pada bpRNA-1m, melampaui RiNALMo (0,850, 650M parameter) dan UNI-RNA (0,821, 400M parameter), dengan kepemimpinan serupa pada ArchiveII (0,954 vs RiNALMo 0,892) dan RIVAS TestSetB (0,721 vs RiNALMo 0,555). Pada tes generalisasi lintas keluarga yang menantang, ERNIE-RNA beku mencapai skor F1 0,646 pada bpRNA-new dan 0,590 pada RNA3DB-2D, mengungguli metode pemrograman dinamis tradisional seperti Eternafold (0,639) dan mempertahankan keunggulan atas semua pesaing pembelajaran mendalam. ERNIE-RNA juga mencapai kinerja unggul di berbagai tugas hilir: prediksi peta kontak RNA dengan presisi Top-L/1 0,68 (vs ansambel RNAcontact pada 0,46), prediksi MRL 5'UTR dengan R² 0,92 pada set uji acak dan 0,86 pada set uji manusia, prediksi pengikatan RNA-protein mengungguli semua metode yang diuji, akurasi klasifikasi keluarga ncRNA 0,9844 (0% kebisingan batas) dan 0,9820 (200% kebisingan batas), skor F1 prediksi situs sambungan mulai dari 0,9180 hingga 0,9612 di empat spesies, akurasi top-K 55,37% pada kumpulan data SpliceAI (vs RNA-FM 34,84%), dan prediksi poliadenilasi alternatif R² 78,39% (vs RNA-FM 70,32%).
Penulis: Weijie Yin, Zhaoyu Zhang, Shuo Zhang, Liang He et. al Xuegong Zhang, Tao Qin & Zhen Xie
Tautan:

Teratas
Peringkat
Favorit

