Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Modelar los 28.000 genes a la vez : un modelo fundamental para la transcriptómica unicelular
Cada célula de tu cuerpo lleva el mismo genoma, pero una neurona no se parece ni se comporta en nada a una célula hepática. La diferencia radica en qué genes se activan o desactivan—y en qué nivel. La secuenciación de ARN unicelular (scRNA-seq) nos permite medir ese perfil de expresión célula a célula, revelando poblaciones celulares raras, regulación génica y respuesta a fármacos con una resolución sin precedentes.
Los modelos Foundation preentrenados en millones de células se han convertido en herramientas poderosas para analizar estos datos. Pero todos comparten un compromiso práctico: restringir su mecanismo de atención a ~2.000 genes altamente expresados y descartar los ~26.000 restantes. Muchos de esos genes excluidos, a pesar de la baja expresión, actúan como interruptores reguladores, ajustadores finos de las vías de señalización y motores de respuestas específicas de contexto como la activación inmunitaria o la resistencia a fármacos. Ignorarlos significa aprender una imagen incompleta de la célula.
Ding Bai y sus coautores abordan esto con scLong, un modelo de mil millones de parámetros preentrenado en 48 millones de células que realiza autoatención en los 27.874 genes humanos. Para hacerlo posible, utilizan un codificador dual: un Performer grande (42 capas) procesa los 4.096 genes de alta expresión superiores, mientras que uno más pequeño (2 capas) maneja los ~24.000 restantes. Ambas salidas se fusionan mediante un codificador de longitud completa que captura interacciones entre grupos. scLong también integra el conocimiento de la Ontología Génica mediante una red convolucional de grafos, incrustando cada gen con información sobre sus funciones conocidas, procesos y localización celular — contexto que los datos de expresión por sí solos no pueden proporcionar.
Los resultados son consistentes y amplios. Al predecir respuestas transcripcionales a perturbaciones genéticas, scLong logra una correlación de Pearson de 0,63 en perturbaciones no vistas, en comparación con 0,56–0,58 para modelos existentes y GEARS. Supera a Geneformer, scGPT y DeepCE en la predicción de perturbaciones químicas en todas las métricas, alcanza 0,873 Pearson en respuesta a fármacos contra el cáncer y supera tanto a Geneformer como a DeepSEM en la inferencia de redes reguladoras génicas.
El punto más amplio: en los modelos de base biológica, a qué eliges prestar atención moldea lo que puedes aprender. Al incluir genes de baja expresión y representaciones de fundamento en el conocimiento funcional, scLong demuestra que escalar el contexto —no solo los parámetros— es clave para captar toda la complejidad de la regulación celular. Un principio relevante donde las dependencias de características a largo plazo son biológicamente significativas pero costosas computacionalmente de modelar.
Papel:

Populares
Ranking
Favoritas
