Modelleren van alle 28.000 genen tegelijk: een fundamentmodel voor single-cell transcriptomics Elke cel in je lichaam draagt hetzelfde genoom, maar een neuron ziet er totaal anders uit en gedraagt zich anders dan een levercel. Het verschil ligt in welke genen aan of uit zijn gezet—en op welk niveau. Single-cell RNA-sequencing (scRNA-seq) stelt ons in staat om dat expressieprofiel cel voor cel te meten, waardoor zeldzame celpopulaties, genregulatie en medicijnrespons met ongekende resolutie worden onthuld. Fundamentmodellen die zijn voorgetraind op miljoenen cellen zijn krachtige tools geworden voor het analyseren van deze gegevens. Maar ze delen allemaal een praktische compromis: het beperken van hun aandachtmechanisme tot ~2.000 hoog-expressie genen en het weggooien van de resterende ~26.000. Veel van die uitgesloten genen, ondanks lage expressie, fungeren als regulatorische schakelaars, fijnstemmen van signaalpaden en drijvers van contextspecifieke reacties zoals immuunactivatie of medicijnresistentie. Ze negeren betekent dat je een onvolledig beeld van de cel leert. Ding Bai en co-auteurs pakken dit aan met scLong, een model met een miljard parameters dat is voorgetraind op 48 miljoen cellen en zelf-aandacht uitvoert over alle 27.874 menselijke genen. Om dit haalbaar te maken, gebruiken ze een duale encoder: een grote Performer (42 lagen) verwerkt de top 4.096 hoog-expressie genen, terwijl een kleinere (2 lagen) de resterende ~24.000 afhandelt. Beide outputs worden samengevoegd via een full-length encoder die cross-group interacties vastlegt. scLong integreert ook Gene Ontology-kennis via een grafconvolutioneel netwerk, waarbij elk gen wordt ingebed met informatie over zijn bekende functies, processen en cellulaire lokalisatie—context die expressiegegevens alleen niet kunnen bieden. De resultaten zijn consistent en breed. Bij het voorspellen van transcriptie-responsen op genetische verstoringen, bereikt scLong een Pearson-correlatie van 0,63 op ongeziene verstoringen, vergeleken met 0,56–0,58 voor bestaande modellen en GEARS. Het presteert beter dan Geneformer, scGPT en DeepCE op de voorspelling van chemische verstoringen over alle metrics, bereikt 0,873 Pearson voor kanker medicijnrespons, en overtreft zowel Geneformer als DeepSEM in de inferentie van genregulerende netwerken. Het bredere punt: in biologische fundamentmodellen bepaalt wat je kiest om op te letten wat je kunt leren. Door laag-expressie genen op te nemen en representaties te verankeren in functionele kennis, toont scLong aan dat het schalen van context—niet alleen parameters—de sleutel is tot het vastleggen van de volledige complexiteit van cellulaire regulatie. Een principe dat relevant is waar langeafstandsafhankelijkheden biologisch betekenisvol maar computationeel duur zijn om te modelleren. Paper: