热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
同时建模所有28,000个基因:单细胞转录组学的基础模型
你身体中的每个细胞都携带相同的基因组,但神经元的外观和行为与肝细胞截然不同。这种差异在于哪些基因被开启或关闭——以及开启的程度。单细胞RNA测序(scRNA-seq)使我们能够逐个细胞测量这种表达谱,揭示稀有细胞群体、基因调控和药物反应,达到前所未有的分辨率。
在数百万个细胞上预训练的基础模型已成为分析这些数据的强大工具。但它们都有一个实际的折衷:将注意力机制限制在约2,000个高表达基因上,丢弃其余约26,000个。尽管这些被排除的基因表达较低,但它们作为调控开关、信号通路的微调器以及驱动特定环境反应(如免疫激活或药物抗性)的因素,发挥着重要作用。忽视它们意味着学习到的细胞图景是不完整的。
丁白及其合著者通过scLong解决了这个问题,这是一种在4800万个细胞上预训练的十亿参数模型,能够对所有27,874个人类基因进行自注意力处理。为了实现这一目标,他们使用了双编码器:一个大型的Performer(42层)处理前4,096个高表达基因,而一个较小的(2层)处理剩余的约24,000个。两个输出通过一个全长编码器合并,捕捉跨组交互。scLong还通过图卷积网络整合了基因本体知识,为每个基因嵌入其已知功能、过程和细胞定位的信息——这种上下文是单靠表达数据无法提供的。
结果一致且广泛。在预测基因扰动的转录反应时,scLong在未见扰动上达到了0.63的Pearson相关性,而现有模型和GEARS的相关性为0.56–0.58。它在化学扰动预测的所有指标上超越了Geneformer、scGPT和DeepCE,在癌症药物反应中达到了0.873的Pearson相关性,并在基因调控网络推断中超越了Geneformer和DeepSEM。
更广泛的观点是:在生物基础模型中,你选择关注的内容决定了你能学到什么。通过包括低表达基因并将表示基于功能知识,scLong表明,扩展上下文——而不仅仅是参数——是捕捉细胞调控全部复杂性的关键。这一原则在生物学上具有重要意义的长距离特征依赖关系,但在计算上建模成本高昂。
论文:

热门
排行
收藏
