Tüm 28.000 genin aynı anda modellenmesi: tek hücreli transkriptomik için temel model Vücudunuzdaki her hücre aynı genomu taşır, ancak bir nöron karaciğer hücresine hiç benzemez ve görünmüyor. Fark, hangi genlerin açık veya kapalı olduğu ve hangi seviyede olduğu konusunda yatıyor. Tek hücreli RNA dizileme (scRNA-seq), bu ifade profilini hücre birer ölçmemize olanak tanır; nadir hücre popülasyonlarını, gen düzenlemesini ve ilaç yanıtını eşi benzeri görülmemiş çözünürlükte ortaya çıkarır. Milyonlarca hücre üzerinde önceden eğitilmiş temel modeller, bu verileri analiz etmek için güçlü araçlar haline geldi. Ancak hepsi pratik bir uzlaşmayı paylaşıyor: dikkat mekanizmalarını ~2.000 yüksek şekilde ifade edilen genle sınırlamak ve kalan ~26.000'i atmak. Bu hariç tutulan genlerin çoğu, düşük ifadeye rağmen, düzenleyici anahtarlar, sinyal yollarının ince ayarlayıcıları ve bağışıklık aktivasyonu veya ilaç direnci gibi bağlama özgü yanıtların sürücüleri olarak görev yapar. Onları görmezden gelmek, hücrenin eksik bir resmini öğrenmek demektir. Ding Bai ve ortak yazarlar, 48 milyon hücrede önceden eğitilmiş milyar parametreli bir model olan ve tüm 27.874 insan geninde kendine dikkat gösteren bir model olan scLong ile bu konuyu ele alıyor. Bunu mümkün kılmak için çift bir kodlayıcı kullanırlar: büyük bir Performer (42 katman) en üst 4.096 yüksek ekspresyonlu geni işlerken, daha küçük bir (2 katman) kalan ~24.000 geni işliyor. Her iki çıktı, çapraz grup etkileşimlerini yakalayan tam boy bir kodlayıcı aracılığıyla birleşir. scLong ayrıca Gen Ontolojisi bilgisini grafik konvolüsyon ağı aracılığıyla entegre eder; her geni bilinen fonksiyonları, süreçleri ve hücresel lokalizasyonu hakkında bilgi gömler—bu bağlamı tek başına ifade verisi sağlayamıyor. Sonuçlar tutarlı ve geniştir. Genetik bozulmalara karşı transkripsiyonel yanıtları tahmin ederken, scLong, görülmeyen bozulmalarda 0.63 Pearson korelasyonu elde ederken, mevcut modeller ve GEARS için 0.56–0.58 oranındadır. Tüm metriklerde kimyasal bozulma tahmininde Geneformer, scGPT ve DeepCE'yi geride bırakır, kanser ilaç yanıtı için 0.873 Pearson'a ulaşır ve gen düzenleyici ağ çıkarımında hem Geneformer hem de DeepSEM'i geçer. Daha geniş bir nokta: Biyolojik temel modellerinde, seçtiğiniz şey, öğrenebileceğiniz şeyleri şekillendirir. Fonksiyonel bilgiye düşük ifadeli genleri ve temelli temsilleri dahil ederek, scLong, sadece parametreler değil, ölçeklendirme bağlamının hücresel düzenlemenin tam karmaşıklığını yakalamak için anahtar olduğunu gösterir. Uzun vadeli özellik bağımlılıklarının biyolojik olarak anlamlı olduğu ancak modellenmesi hesaplama açısından maliyetli olduğu yerlerde geçerli bir ilke. Makale: