Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Чи може мовна модель вивчати структуру РНК без явних структурних навчальних даних?@NatureComms @Tsinghua_Uni
"ERNIE-RNA: модель мови РНК із структурно-посиленими представленнями"
• Існуючі моделі мови РНК ігнорують структурну інформацію в послідовностях, що призводить до неповного виділення ознак і неоптимальної продуктивності, незважаючи на ієрархічну організацію РНК, де первинні послідовності складаються у специфічні структурні конформації, що визначають біологічні функції. Традиційні обчислювальні підходи до прогнозування структури РНК стикаються з чіткими викликами: методи, засновані на термодинаміці, обмежені точністю параметрів, методи, засновані на вирівнюваннях, мають труднощі без достатньої кількості гомологічних послідовностей, а моделі глибокого навчання демонструють обмежене узагальнення на невидимі сімейства РНК. Хоча з'явилися моделі мов РНК у стилі BERT, такі як RNA-FM (навчені на 23 мільйонах послідовностей), UNI-RNA (1 мільярд послідовностей, 400 млн параметрів) та RiNALMo (36 млн послідовностей, 650 млн параметрів), вони не здатні належним чином врахувати структурну інформацію, і деякі, як UTR-LM, намагаються вирішити це, включаючи прогнозовані структури з RNAfold, але стикаються з обмеженнями через помилки прогнозування та знижену здатність до узагальнення.
• ERNIE-RNA — це попередньо навчена мовна модель РНК з 86 мільйонами параметрів, заснована на модифікованій архітектурі BERT з 12 трансформерними блоками та 12 головками уваги, навчена на 20,4 мільйонах некодуючих РНК-послідовностей з RNAcentral після фільтрації послідовностей довше 1022 нуклеотидів і застосування CD-HIT резервного видалення при 100% схожості. Модель включає механізм зсуву уваги, орієнтований на базові пари, який присвоює значення 2 для пар AU, 3 для пар CG та налаштовуваний параметр α (спочатку 0,8) для пар GU у матриці позицій «усі проти всіх», замінюючи член зміщення на першому шарі трансформатора. Попереднє навчання використовувало масковане мовне моделювання з випадковим чином заміненим 15% токенів, навченим протягом 20 днів на 24 GPU 32G-V100 з використанням fairseq з базовою швидкістю навчання 0.0001, 20 000 кроків розігріву та зменшенням ваги 0.01, генеруючи як карти уваги (L×L×156), так і вкладення токенів (12×768×L) як виходи.
• Карти уваги ERNIE-RNA продемонстрували можливість прогнозування вторинної структури РНК з нульовим ударом із медіаною F1-балом 0,552 на тестовому наборі bpRNA-1m, що перевершило RNAfold (0,492), структуру RNArnie (0,491), RNAErnie (0,440) та RNA-BERT (0,365) без тонкого налаштування. Після тонкого налаштування ERNIE-RNA досягла найсучасніших макросередніх F1-балів 0,873 на bpRNA-1m, перевершивши RiNALMo (0,850, 650 млн параметрів) та UNI-RNA (0,821, 400 млн параметрів), з подібним лідерством у ArchiveII (0,954 проти 0,892 у RiNALMo) та RIVAS TestSetB (0,721 проти 0,555 у RiNALMo). У складних тестах узагальнення між сім'ями ERNIE-RNA frozen отримав F1-бали 0,646 на bpRNA-new і 0,590 на RNA3DB-2D, перевершивши традиційні методи динамічного програмування, такі як Eternafold (0,639), і зберігаючи перевагу над усіма конкурентами у глибокому навчанні. ERNIE-RNA також досягла відмінних результатів у різних наступних завданнях: прогнозування карти контактів РНК з точністю Top-L/1 0,68 (проти ансамблю RNAcontact при 0,46), прогнозування MRL 5'UTR з R² 0,92 на випадковому тестовому наборі та 0,86 на людському тестовому наборі, прогнозування зв'язування РНК-білка, що перевершило всі тестовані методи, точність класифікації сімейств ncRNA 0,9844 (0% шум на межі) та 0,9820 (200% шум на межі), прогнозування місця зрощення F1 коливаються від 0,9180 до 0,9612 у чотирьох видах, точність топ-K 55,37% за набором даних SpliceAI (проти 34,84% у RNA-FM) та альтернативне прогнозування поліаденілювання R² 78,39% (проти 70,32% у RNA-FM).
Автори: Вейцзе Інь, Чжаоюй Чжан, Шуо Чжан, Лян Хе та ін. аль Сюегун Чжан, Тао Цінь і Чжень Сє
Посилання:

Найкращі
Рейтинг
Вибране

