Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¿Puede un modelo de lenguaje aprender la estructura de ARN sin datos explícitos de entrenamiento estructural@NatureComms @Tsinghua_Uni
"ERNIE-ARN: un modelo de lenguaje de ARN con representaciones mejoradas por estructura"
• Los modelos existentes de lenguaje de ARN pasan por alto la información estructural en las secuencias, lo que conduce a una extracción incompleta de características y a un rendimiento subóptimo, a pesar de la organización jerárquica del ARN, donde las secuencias primarias se pliegan en conformaciones estructurales específicas que determinan funciones biológicas. Los enfoques computacionales tradicionales para la predicción de estructuras de ARN enfrentan desafíos distintos: los métodos basados en termodinámica están limitados por la precisión de los parámetros, los métodos basados en alineación luchan por no tener secuencias homólogas suficientes, y los modelos de aprendizaje profundo muestran una generalización limitada a familias de ARN no vistas. Aunque han surgido modelos de lenguaje de ARN tipo BERT como RNA-FM (entrenado con 23 millones de secuencias), UNI-RNA (1.000 millones de secuencias, 400M de parámetros) y RiNALMo (secuencias 36M, 650M parámetros), no incorporan adecuadamente la información estructural, y algunos como UTR-LM intentan abordar esto incorporando estructuras predichas de RNAfold, pero enfrentándose a limitaciones derivadas de errores de predicción y una menor capacidad de generalización.
• ERNIE-RNA es un modelo de lenguaje preentrenado con ARN de 86 millones de parámetros basado en arquitectura BERT modificada con 12 bloques transformadores y 12 cabezas de atención, entrenado con 20,4 millones de secuencias de ARN no codificantes de RNAcentral tras filtrar secuencias superiores a 1022 nucleótidos y aplicar la eliminación de redundancia CD-HIT con un 100% de similitud. El modelo incorpora un mecanismo de sesgo de atención informado por emparejamiento de bases que asigna valores de 2 para pares AU, 3 para pares CG y un parámetro ajustable α (inicialmente 0,8) para pares GU en una matriz de posición por pares todos contra todos, reemplazando el término de polarización en la primera capa transformadora. El preentrenamiento utilizó modelado de lenguaje enmascarado con el 15% de los tokens reemplazados aleatoriamente, entrenado durante 20 días en 24 GPUs 32G-V100 usando fairseq con tasa base de aprendizaje 0,0001, 20.000 pasos de calentamiento y decaimiento de peso 0,01, generando tanto mapas de atención (L×L×156) como embeddings de tokens (12×768×L) como salidas.
• Los mapas de atención de ERNIE-RNA demostraron capacidad de predicción de estructuras secundarias de ARN sin disparo con una puntuación mediana de F1 de 0,552 en el conjunto de pruebas bpRNA-1m, superando RNAfold (0,492), RNAstructure (0,491), RNAErnie (0,440) y RNA-BERT (0,365) sin ajustes finos. Tras un ajuste fino, ERNIE-RNA logró puntuaciones macro-medias F1 de 0,873 en bpRNA-1m, superando a RiNALMo (0,850, parámetros 650M) y UNI-RNA (0,821, parámetros 400M), con liderazgo similar en ArchiveII (0,954 frente a 0,892 de RiNALMo) y RIVAS TestSetB (0,721 frente a 0,555 de RiNALMo). En pruebas desafiantes de generalización entre familias, ERNIE-ARN congelado logró puntuaciones F1 de 0,646 en bpRNA-nuevo y 0,590 en RNA3DB-2D, superando métodos tradicionales de programación dinámica como Eternafold (0,639) y manteniendo la superioridad sobre todos los competidores en aprendizaje profundo. ERNIE-RNA también logró un rendimiento superior en diversas tareas posteriores: predicción del mapa de contacto de ARN con precisión Top-L/1 de 0,68 (frente al conjunto de RNAcontact de 0,46), predicción de MRL 5'UTR con R² de 0,92 en el conjunto de prueba aleatoria y 0,86 en el conjunto de prueba humana, predicción de unión ARN-proteína superando a todos los métodos probados, precisión de clasificación de la familia de NCRNA de 0,9844 (0% ruido de frontera) y 0,9820 (200% ruido de frontera), Puntuaciones F1 de predicción del sitio de empalme que oscilan entre 0,9180 y 0,9612 en cuatro especies, precisión top-K del 55,37% en el conjunto de datos SpliceAI (frente al 34,84% de RNA-FM), y predicción alternativa de poliadenilación R² del 78,39% (frente al 70,32% de RNA-FM).
Autores: Weijie Yin, Zhaoyu Zhang, Shuo Zhang, Liang He, etc. al Xuegong Zhang, Tao Qin y Zhen Xie
Enlace:

Populares
Ranking
Favoritas

