同時建模所有28,000個基因:單細胞轉錄組學的基礎模型 你身體中的每個細胞都攜帶相同的基因組,但神經元的外觀和行為與肝細胞完全不同。這種差異在於哪些基因被開啟或關閉——以及開啟的程度。單細胞RNA測序(scRNA-seq)讓我們能夠逐個細胞測量這種表達譜,揭示稀有細胞群體、基因調控和藥物反應,達到前所未有的解析度。 在數百萬個細胞上預訓練的基礎模型已成為分析這些數據的強大工具。但它們都有一個實際的妥協:將注意力機制限制在約2,000個高表達基因上,並丟棄剩餘的約26,000個。儘管這些被排除的基因表達量低,但它們作為調控開關、信號通路的微調器以及驅動特定情境反應(如免疫激活或藥物抗性)的因素,仍然扮演著重要角色。忽視它們意味著學習到的細胞圖像是不完整的。 丁白及其合著者通過scLong解決了這一問題,這是一個在4800萬個細胞上預訓練的十億參數模型,能夠對所有27,874個人類基因進行自我注意。為了使這一切可行,他們使用了雙編碼器:一個大型的表現者(42層)處理前4,096個高表達基因,而一個較小的(2層)則處理剩餘的約24,000個。兩者的輸出通過一個全長編碼器合併,捕捉跨組互動。scLong還通過圖卷積網絡整合基因本體知識,為每個基因嵌入其已知功能、過程和細胞定位的信息——這是僅靠表達數據無法提供的上下文。 結果一致且廣泛。在預測基因擾動的轉錄反應時,scLong在未見擾動上達到0.63的皮爾森相關性,而現有模型和GEARS的相關性為0.56–0.58。它在所有指標上超越了Geneformer、scGPT和DeepCE在化學擾動預測中的表現,對癌症藥物反應達到0.873的皮爾森相關性,並在基因調控網絡推斷中超越了Geneformer和DeepSEM。 更廣泛的觀點是:在生物基礎模型中,你選擇關注的內容塑造了你能學到的東西。通過包括低表達基因並將表示基於功能知識,scLong顯示出擴展上下文——而不僅僅是參數——是捕捉細胞調控全貌的關鍵。這一原則在長距離特徵依賴在生物學上有意義但計算上昂貴的模型中是相關的。 論文: