Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Memodelkan semua 28.000 gen sekaligus: model dasar untuk transkriptomik sel tunggal
Setiap sel dalam tubuh Anda membawa genom yang sama, namun neuron tidak terlihat dan berperilaku seperti sel hati. Perbedaannya terletak pada gen mana dihidupkan atau dimatikan—dan pada tingkat apa. Pengurutan RNA sel tunggal (scRNA-seq) memungkinkan kita mengukur profil ekspresi itu satu sel pada satu waktu, mengungkapkan populasi sel langka, regulasi gen, dan respons obat pada resolusi yang belum pernah terjadi sebelumnya.
Model fondasi yang telah dilatih sebelumnya pada jutaan sel telah menjadi alat yang ampuh untuk menganalisis data ini. Tetapi mereka semua berbagi kompromi praktis: membatasi mekanisme perhatian mereka pada ~2.000 gen yang sangat diekspresikan dan membuang sisanya ~26.000. Banyak dari gen yang dikecualikan tersebut, meskipun ekspresi rendah, bertindak sebagai sakelar pengaturan, penyetel jalur pensinyalan, dan pendorong respons spesifik konteks seperti aktivasi kekebalan atau resistensi obat. Mengabaikannya berarti mempelajari gambaran sel yang tidak lengkap.
Ding Bai dan rekan penulis membahas ini dengan scLong, model miliaran parameter yang telah dilatih sebelumnya pada 48 juta sel yang melakukan perhatian diri di semua 27.874 gen manusia. Untuk memungkinkannya, mereka menggunakan encoder ganda: Performer besar (42 lapisan) memproses 4.096 gen ekspresi tinggi teratas, sementara yang lebih kecil (2 lapisan) menangani ~24.000 sisanya. Kedua output bergabung melalui encoder panjang penuh yang menangkap interaksi lintas kelompok. scLong juga mengintegrasikan pengetahuan Ontologi Gen melalui jaringan konvolusional grafik, menyematkan setiap gen dengan informasi tentang fungsi, proses, dan lokalisasi seluler yang diketahui—konteks yang tidak dapat diberikan oleh data ekspresi saja.
Hasilnya konsisten dan luas. Dalam memprediksi respons transkripsi terhadap gangguan genetik, scLong mencapai korelasi Pearson 0,63 pada gangguan yang tidak terlihat, dibandingkan dengan 0,56–0,58 untuk model dan GEARS yang ada. Ini mengungguli Geneformer, scGPT, dan DeepCE dalam prediksi gangguan kimia di semua metrik, mencapai 0,873 Pearson untuk respons obat kanker, dan melampaui Geneformer dan DeepSEM dalam inferensi jaringan regulasi gen.
Poin yang lebih luas: dalam model fondasi biologis, apa yang Anda pilih untuk dihadiri membentuk apa yang dapat Anda pelajari. Dengan memasukkan gen ekspresi rendah dan representasi pembumian dalam pengetahuan fungsional, scLong menunjukkan bahwa konteks penskalaan—bukan hanya parameter—adalah kunci untuk menangkap kompleksitas penuh regulasi seluler. Prinsip yang relevan di mana pun dependensi fitur jangka panjang secara biologis bermakna tetapi secara komputasi mahal untuk dimodelkan.
Kertas:

Teratas
Peringkat
Favorit
