Kaikkien 28 000 geenin mallintaminen kerralla: perusmalli yksisolutranskriptomiikalle Jokainen kehosi solu kantaa samaa genomia, mutta neuroni ei näytä eikä käyttäydy lainkaan maksasolulta. Ero on siinä, mitkä geenit kytketään päälle tai pois – ja millä tasolla. Yksisoluinen RNA-sekvensointi (scRNA-seq) mahdollistaa ilmentymisprofiilin mittaamisen solu kerrallaan, paljastaen harvinaiset solupopulaatiot, geenien säätelyn ja lääkevasteen ennennäkemättömällä tarkkuudella. Miljoonille soluille esikoulutetut perustusmallit ovat muodostuneet tehokkaiksi työkaluiksi näiden tietojen analysointiin. Mutta heillä kaikilla on käytännöllinen kompromissi: keskittymismekanismin rajoittaminen ~2 000 voimakkaasti ilmennettyyn geeniin ja loput ~26 000 hylätään. Monet näistä poissuljettuista geeneistä, vaikka ilmentyminen on vähäistä, toimivat säätelykytkiminä, signaalireittien hienosäätiminä ja kontekstisidonnaisten vasteiden, kuten immuuniaktivaation tai lääkeresistenssin, ajureina. Niiden sivuuttaminen tarkoittaa epätäydellisen kuvan oppimista solusta. Ding Bai ja hänen kanssakirjoittajansa käsittelevät tätä scLongilla, miljardiparametrilla mallilla, joka on esikoulutettu 48 miljoonalle solulle ja suorittaa itsehuomiota kaikilla 27 874 ihmisen geenillä. Tämän mahdollistamiseksi käytetään kaksoiskooderia: suuri Performer (42 kerrosta) käsittelee 4 096 korkean ilmenneisyyden geeniä, kun taas pienempi (2 kerrosta) käsittelee loput ~24 000. Molemmat ulostulot yhdistyvät täyspitkän kooderin kautta, joka tallentaa ryhmien väliset vuorovaikutukset. scLong integroi myös geeniontologian tiedon graafikonvoluutioverkon kautta, upottaen jokaisen geenin tiedolla sen tunnetuista toiminnoista, prosesseista ja solujen lokalisaatiosta – kontekstista, jota pelkkä ilmentymisdata ei voi tarjota. Tulokset ovat johdonmukaisia ja laajoja. Ennustaessaan transkriptionaalisia vasteita geneettisiin häiriöihin scLong saavuttaa Pearsonin korrelaation 0,63 näkymättömillä häiriöillä, kun taas nykyisissä malleissa ja GEARSissa se on 0,56–0,58. Se päihittää Geneformerin, scGPT:n ja DeepCE:n kemiallisten häiriöiden ennustamisessa kaikilla mittareilla, saavuttaa 0,873 Pearsonin syöpälääkevasteen ja ylittää sekä Geneformerin että DeepSEMin geenisäätelyverkoston päättelyssä. Laajempi pointti: biologisissa perustusmalleissa se, mihin päätät kiinnittää huomiota, muokkaa sitä, mitä voit oppia. Sisällyttämällä matalan ekspression geenit ja maadoitusrepresentaatiot toiminnalliseen tietoon scLong osoittaa, että kontekstin skaalaus—ei pelkästään parametrit—on avain solusäätelyn täyden monimutkaisuuden tallentamiseen. Periaate, joka on merkityksellinen siellä, missä pitkän aikavälin ominaisuusriippuvuudet ovat biologisesti merkityksellisiä mutta laskennallisesti kalliita mallintaa. Artikkeli: