Может ли языковая модель изучить структуру РНК без явных данных о структурном обучении?@NatureComms @Tsinghua_Uni "ERNIE-RNA: языковая модель РНК с улучшенными представлениями структуры" • Существующие языковые модели РНК игнорируют структурную информацию в последовательностях, что приводит к неполной экстракции признаков и субоптимальной производительности, несмотря на иерархическую организацию РНК, где первичные последовательности сворачиваются в специфические структурные конформации, определяющие биологические функции. Традиционные вычислительные подходы к предсказанию структуры РНК сталкиваются с различными проблемами: методы, основанные на термодинамике, ограничены точностью параметров, методы, основанные на выравнивании, испытывают трудности без достаточного количества гомологичных последовательностей, а модели глубокого обучения показывают ограниченную обобщаемость для невидимых семейств РНК. Хотя языковые модели РНК в стиле BERT, такие как RNA-FM (обученная на 23 миллионах последовательностей), UNI-RNA (1 миллиард последовательностей, 400 миллионов параметров) и RiNALMo (36 миллионов последовательностей, 650 миллионов параметров), появились, они не могут адекватно учитывать структурную информацию, некоторые, такие как UTR-LM, пытаются решить эту проблему, включая предсказанные структуры из RNAfold, но сталкиваются с ограничениями из-за ошибок предсказания и сниженной способности к обобщению. • ERNIE-RNA — это языковая модель РНК с 86 миллионами параметров, предварительно обученная на основе модифицированной архитектуры BERT с 12 трансформерными блоками и 12 головами внимания, обученная на 20,4 миллионах некодирующих последовательностей РНК из RNAcentral после фильтрации последовательностей длиной более 1022 нуклеотидов и применения удаления избыточности CD-HIT при 100% сходстве. Модель включает механизм внимания, информированный о парном связывании, который присваивает значения 2 для пар AU, 3 для пар CG и настраиваемый параметр α (изначально 0.8) для пар GU в матрице парного позиционного взаимодействия, заменяя смещение в первом слое трансформера. Предварительное обучение использовало маскированное языковое моделирование с 15% токенов, случайно замененных, обучаясь в течение 20 дней на 24 32G-V100 GPU с использованием fairseq с базовой скоростью обучения 0.0001, 20 000 шагов разогрева и 0.01 уменьшением веса, генерируя как карты внимания (L×L×156), так и встраивания токенов (12×768×L) в качестве выходных данных. • Карты внимания ERNIE-RNA продемонстрировали способность предсказания вторичной структуры РНК без обучения с медианным F1-оценкой 0.552 на тестовом наборе bpRNA-1m, превосходя RNAfold (0.492), RNAstructure (0.491), RNAErnie (0.440) и RNA-BERT (0.365) без дообучения. После дообучения ERNIE-RNA достигла передовых макро-средних F1-оценок 0.873 на bpRNA-1m, превзойдя RiNALMo (0.850, 650 миллионов параметров) и UNI-RNA (0.821, 400 миллионов параметров), с аналогичным лидерством на ArchiveII (0.954 против 0.892 RiNALMo) и RIVAS TestSetB (0.721 против 0.555 RiNALMo). На сложных тестах обобщения между семействами ERNIE-RNA frozen достигла F1-оценок 0.646 на bpRNA-new и 0.590 на RNA3DB-2D, превосходя традиционные методы динамического программирования, такие как Eternafold (0.639), и сохраняя превосходство над всеми конкурентами глубокого обучения. ERNIE-RNA также показала превосходные результаты в различных задачах: предсказание карты контактов РНК с точностью Top-L/1 0.68 (против ансамбля RNAcontact на 0.46), предсказание MRL 5'UTR с R² 0.92 на случайном тестовом наборе и 0.86 на тестовом наборе для человека, предсказание связывания РНК-белок, превосходя все протестированные методы, точности классификации семейств ncRNA 0.9844 (0% шум на границе) и 0.9820 (200% шум на границе), F1-оценки предсказания сайтов сплайсинга в диапазоне от 0.9180 до 0.9612 для четырех видов, точность top-K 55.37% на наборе данных SpliceAI (против 34.84% RNA-FM) и предсказание альтернативной полиаденилирования с R² 78.39% (против 70.32% RNA-FM). Авторы: Вэйцзе Инь, Чжаоюй Чжан, Шуо Чжан, Лян Хэ и др. Сюэгун Чжан, Тао Цинь и Чжэнь Си Ссылка: