Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Modellare tutti i 28.000 geni contemporaneamente: un modello di base per la trascrittomica a singola cellula
Ogni cellula del tuo corpo porta lo stesso genoma, eppure un neurone appare e si comporta in modo completamente diverso da una cellula epatica. La differenza risiede in quali geni sono attivati o disattivati—e a quale livello. Il sequenziamento dell'RNA a singola cellula (scRNA-seq) ci consente di misurare quel profilo di espressione cellula per cellula, rivelando popolazioni cellulari rare, regolazione genica e risposta ai farmaci con una risoluzione senza precedenti.
I modelli di base pre-addestrati su milioni di cellule sono diventati strumenti potenti per analizzare questi dati. Ma condividono tutti un compromesso pratico: limitare il loro meccanismo di attenzione a ~2.000 geni altamente espressi e scartare i restanti ~26.000. Molti di quei geni esclusi, nonostante la bassa espressione, agiscono come interruttori regolatori, sintonizzatori di vie di segnalazione e motori di risposte specifiche al contesto come l'attivazione immunitaria o la resistenza ai farmaci. Ignorarli significa apprendere un quadro incompleto della cellula.
Ding Bai e i coautori affrontano questo problema con scLong, un modello da un miliardo di parametri pre-addestrato su 48 milioni di cellule che esegue auto-attenzione su tutti i 27.874 geni umani. Per rendere questo fattibile, utilizzano un codificatore duale: un grande Performer (42 strati) elabora i 4.096 geni ad alta espressione, mentre un modello più piccolo (2 strati) gestisce i restanti ~24.000. Entrambi gli output si fondono attraverso un codificatore a lunghezza completa che cattura le interazioni tra i gruppi. scLong integra anche la conoscenza della Gene Ontology tramite una rete neurale convoluzionale grafica, incorporando ogni gene con informazioni sulle sue funzioni conosciute, processi e localizzazione cellulare—un contesto che i dati di espressione da soli non possono fornire.
I risultati sono coerenti e ampi. Nella previsione delle risposte trascrizionali a perturbazioni genetiche, scLong raggiunge una correlazione di Pearson di 0.63 su perturbazioni non viste, rispetto a 0.56–0.58 per i modelli esistenti e GEARS. Supera Geneformer, scGPT e DeepCE nella previsione delle perturbazioni chimiche su tutte le metriche, raggiunge 0.873 di Pearson per la risposta ai farmaci contro il cancro e supera sia Geneformer che DeepSEM nell'inferenza delle reti regolatorie geniche.
Il punto più ampio: nei modelli di base biologici, ciò a cui scegli di prestare attenzione determina ciò che puoi apprendere. Includendo geni a bassa espressione e ancorando le rappresentazioni nella conoscenza funzionale, scLong dimostra che scalare il contesto—non solo i parametri—è fondamentale per catturare la piena complessità della regolazione cellulare. Un principio rilevante ovunque le dipendenze delle caratteristiche a lungo raggio siano biologicamente significative ma computazionalmente costose da modellare.
Articolo:

Principali
Ranking
Preferiti
