Modelagem de todos os 28.000 genes de uma só vez: um modelo base para transcriptômica de célula única Cada célula do seu corpo carrega o mesmo genoma, no entanto, um neurônio não se parece nem se comporta como uma célula do fígado. A diferença está em quais genes estão ativados ou desativados — e em que nível. A sequenciação de RNA de célula única (scRNA-seq) permite-nos medir esse perfil de expressão uma célula de cada vez, revelando populações celulares raras, regulação gênica e resposta a medicamentos com uma resolução sem precedentes. Modelos base pré-treinados em milhões de células tornaram-se ferramentas poderosas para analisar esses dados. Mas todos eles compartilham um compromisso prático: restringir seu mecanismo de atenção a ~2.000 genes altamente expressos e descartar os restantes ~26.000. Muitos desses genes excluídos, apesar da baixa expressão, atuam como interruptores regulatórios, ajustadores finos de vias de sinalização e motores de respostas específicas ao contexto, como ativação imunológica ou resistência a medicamentos. Ignorá-los significa aprender uma imagem incompleta da célula. Ding Bai e coautores abordam isso com o scLong, um modelo de um bilhão de parâmetros pré-treinado em 48 milhões de células que realiza autoatenção em todos os 27.874 genes humanos. Para tornar isso viável, eles usam um codificador duplo: um Performer grande (42 camadas) processa os 4.096 genes de alta expressão, enquanto um menor (2 camadas) lida com os restantes ~24.000. Ambas as saídas se fundem através de um codificador de comprimento total que captura interações entre grupos. O scLong também integra conhecimento de Ontologia Gênica por meio de uma rede neural convolucional gráfica, incorporando cada gene com informações sobre suas funções conhecidas, processos e localização celular — um contexto que os dados de expressão sozinhos não podem fornecer. Os resultados são consistentes e amplos. Ao prever respostas transcricionais a perturbações genéticas, o scLong alcança uma correlação de Pearson de 0,63 em perturbações não vistas, em comparação com 0,56–0,58 para modelos existentes e GEARS. Ele supera Geneformer, scGPT e DeepCE na previsão de perturbações químicas em todas as métricas, alcança 0,873 de Pearson para resposta a medicamentos contra o câncer e supera tanto Geneformer quanto DeepSEM na inferência de rede regulatória gênica. O ponto mais amplo: em modelos biológicos base, o que você escolhe prestar atenção molda o que você pode aprender. Ao incluir genes de baixa expressão e fundamentar representações em conhecimento funcional, o scLong mostra que escalar o contexto — não apenas parâmetros — é a chave para capturar toda a complexidade da regulação celular. Um princípio relevante onde quer que dependências de características de longo alcance sejam biologicamente significativas, mas computacionalmente caras de modelar. Artigo: