Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Modellering av alla 28 000 gener samtidigt: en grundmodell för enkelcellstranskriptomik
Varje cell i din kropp bär samma genom, men en neuron ser och beter sig inte alls som en levercell. Skillnaden ligger i vilka gener som slås på eller av – och på vilken nivå. Enkelcells-RNA-sekvensering (scRNA-seq) låter oss mäta uttrycksprofilen en cell i taget, vilket avslöjar sällsynta cellpopulationer, genreglering och läkemedelsrespons med en aldrig tidigare skådad upplösning.
Grundläggande modeller som är förtränade på miljontals celler har blivit kraftfulla verktyg för att analysera dessa data. Men de delar alla en praktisk kompromiss: att begränsa sin uppmärksamhetsmekanism till ~2 000 högt uttryckta gener och kassera de återstående ~26 000. Många av dessa uteslutna gener, trots låg uttrycksförmåga, fungerar som regulatoriska brytare, finjusterare av signalvägar och drivkrafter för kontextspecifika svar som immunaktivering eller läkemedelsresistens. Att ignorera dem innebär att man får en ofullständig bild av cellen.
Ding Bai och medförfattare tar upp detta med scLong, en miljardparametermodell förtränad på 48 miljoner celler som utför självuppmärksamhet över alla 27 874 mänskliga gener. För att göra detta möjligt använder de en dubbel kodare: en stor Performer (42 lager) bearbetar de översta 4 096 höguttrycksgenerna, medan en mindre (2 lager) hanterar de återstående ~24 000. Båda utgångarna slås samman genom en fulllängdskodare som fångar interaktioner mellan grupper. scLong integrerar också kunskap om genontologi via ett grafkonvolutionellt nätverk, där varje gen integreras med information om dess kända funktioner, processer och cellulära lokalisering – kontext som uttrycksdata ensam inte kan ge.
Resultaten är konsekventa och breda. Vid förutsägelse av transkriptionella svar på genetiska störningar uppnår scLong en Pearson-korrelation på 0,63 på osedda störningar, jämfört med 0,56–0,58 för befintliga modeller och GEARS. Den överträffar Geneformer, scGPT och DeepCE när det gäller kemisk störningsprediktion över alla mätvärden, når 0,873 Pearson för cancerläkemedelsrespons och överträffar både Geneformer och DeepSEM i genreglerande nätverksinferens.
Den bredare poängen: i biologiska grundmodeller formar det du väljer att ägna dig åt vad du kan lära dig. Genom att inkludera gener med låg uttrycksförmåga och förankrade representationer i funktionell kunskap visar scLong att skalning av kontext – inte bara parametrar – är nyckeln till att fånga hela komplexiteten i cellregleringen. En princip som är relevant där långdistans funktionsberoenden är biologiskt meningsfulla men beräkningsmässigt kostsamma att modellera.
Papper:

Topp
Rankning
Favoriter
