Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Modelando todos os 28.000 genes ao mesmo tempo: um modelo fundamental para transcriptômica de célula única
Cada célula do seu corpo carrega o mesmo genoma, mas um neurônio não se parece nem se comporta como uma célula hepática. A diferença está em quais genes são ativados ou desativados — e em que nível. O sequenciamento de RNA de célula única (scRNA-seq) nos permite medir esse perfil de expressão uma célula de cada vez, revelando populações celulares raras, regulação gênica e resposta a medicamentos com resolução sem precedentes.
Modelos Foundation pré-treinados em milhões de células tornaram-se ferramentas poderosas para analisar esses dados. Mas todos compartilham um compromisso prático: restringir seu mecanismo de atenção a ~2.000 genes altamente expressos e descartar os ~26.000 restantes. Muitos desses genes excluídos, apesar de baixa expressão, atuam como interruptores regulatórios, ajustadores finos das vias de sinalização e impulsionadores de respostas específicas do contexto, como ativação imune ou resistência a medicamentos. Ignorá-los significa aprender uma imagem incompleta da célula.
Ding Bai e coautores abordam isso com o scLong, um modelo de bilhões de parâmetros pré-treinado em 48 milhões de células que realiza autoatenção em todos os 27.874 genes humanos. Para tornar isso viável, eles usam um codificador duplo: um grande Performer (42 camadas) processa os 4.096 genes de alta expressão superiores, enquanto um menor (2 camadas) cuida dos ~24.000 restantes. Ambas as saídas se fundem por meio de um codificador de comprimento completo que captura interações entre grupos. O scLong também integra o conhecimento da Ontologia Gênica por meio de uma rede convolucional de grafos, incorporando cada gene com informações sobre suas funções conhecidas, processos e localização celular — contexto que os dados de expressão sozinhos não podem fornecer.
Os resultados são consistentes e amplos. Ao prever respostas transcricionais a perturbações genéticas, o scLong alcança uma correlação de Pearson de 0,63 em perturbações não vistas, em comparação com 0,56–0,58 para modelos e GEARS existentes. Ele supera Geneformer, scGPT e DeepCE na previsão de perturbações químicas em todas as métricas, atinge 0,873 Pearson para resposta a medicamentos contra o câncer e supera tanto o Geneformer quanto o DeepSEM na inferência de redes reguladoras de genes.
O ponto mais amplo: em modelos de base biológica, o que você escolhe para atender molda o que pode aprender. Ao incluir genes de baixa expressão e representações de fundamento no conhecimento funcional, o scLong mostra que escalar o contexto — não apenas os parâmetros — é fundamental para capturar toda a complexidade da regulação celular. Um princípio relevante onde dependências de características de longo alcance são biologicamente significativas, mas computacionalmente caras para modelar.
Papel:

Melhores
Classificação
Favoritos
