Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Modellering av alle 28 000 gener samtidig: en grunnmodell for enkeltcelletranskriptomikk
Hver celle i kroppen din bærer det samme genomet, men et nevron ser ikke ut og oppfører seg ikke som en levercelle. Forskjellen ligger i hvilke gener som slås på eller av – og på hvilket nivå. Enkeltcelle-RNA-sekvensering (scRNA-seq) lar oss måle denne uttrykksprofilen én celle om gangen, og avslører sjeldne cellepopulasjoner, genregulering og legemiddelrespons med enestående oppløsning.
Grunnlagsmodeller, forhåndstrent på millioner av celler, har blitt kraftige verktøy for å analysere disse dataene. Men de deler alle et praktisk kompromiss: å begrense oppmerksomhetsmekanismen til ~2 000 høyt uttrykte gener og forkaste de resterende ~26 000. Mange av de ekskluderte genene, til tross for lav ekspression, fungerer som regulatoriske brytere, finjusterere av signalveier og drivere for kontekstspesifikke responser som immunaktivering eller legemiddelresistens. Å ignorere dem betyr å få et ufullstendig bilde av cellen.
Ding Bai og medforfattere tar for seg dette med scLong, en milliardparametermodell forhåndstrent på 48 millioner celler som utfører selvoppmerksomhet på tvers av alle 27 874 menneskelige gener. For å gjøre dette mulig bruker de en dobbel koder: en stor Performer (42 lag) behandler de øverste 4 096 genene med høyt uttrykk, mens en mindre (2 lag) håndterer de resterende ~24 000. Begge utgangene slås sammen gjennom en full-lengde encoder som fanger interaksjoner på tvers av grupper. scLong integrerer også kunnskap om genontologi via et grafkonvolusjonsnettverk, og integrerer hvert gen med informasjon om dets kjente funksjoner, prosesser og cellulære lokalisering—kontekst som uttrykksdata alene ikke kan gi.
Resultatene er konsistente og brede. Ved å forutsi transkripsjonelle responser på genetiske forstyrrelser oppnår scLong en Pearson-korrelasjon på 0,63 på usette forstyrrelser, sammenlignet med 0,56–0,58 for eksisterende modeller og GEARS. Den overgår Geneformer, scGPT og DeepCE på kjemisk perturbasjonsprediksjon på tvers av alle måleparametere, når 0,873 Pearson for respons på kreftmedisin, og overgår både Geneformer og DeepSEM i genregulatorisk nettverksinferens.
Det bredere poenget: i biologiske grunnlagsmodeller former det du velger å fokusere på hva du kan lære. Ved å inkludere gener med lavt uttrykk og forankre representasjoner i funksjonell kunnskap, viser scLong at skalering av kontekst—ikke bare parametere—er nøkkelen til å fange hele kompleksiteten i cellulær regulering. Et prinsipp som er relevant der langtrekkende funksjonsavhengigheter er biologisk meningsfulle, men beregningsmessig krevende å modellere.
Artikkel:

Topp
Rangering
Favoritter
