Моделювання всіх 28 000 генів одночасно: базова модель для одноклітинної транскриптоміки Кожна клітина вашого тіла несе однаковий геном, але нейрон виглядає і поводиться зовсім не як клітина печінки. Різниця полягає в тому, які гени вмикаються або вимикаються — і на якому рівні. Секвенування одноклітинної РНК (scRNA-seq) дозволяє вимірювати цей профіль експресії по одній клітині за раз, виявляючи рідкісні популяції клітин, регуляцію генів і відповідь на ліки з безпрецедентною роздільною здатністю. Базові моделі, попередньо навчені на мільйонах клітин, стали потужними інструментами для аналізу цих даних. Але всі вони мають практичний компроміс: обмежують свій механізм уваги ~2 000 високо експресованих генів і відкидають решту ~26 000. Багато з цих виключених генів, незважаючи на низьку експресію, виступають регуляторними перемикачами, тонкими налаштуваннями сигнальних шляхів і драйверами контекстно-специфічних реакцій, таких як імуноактивація або резистентність до ліків. Ігнорування їх означає вивчення неповної картини клітини. Дін Бай та співавтори вирішують це за допомогою scLong — мільярдної моделі, попередньо навченої на 48 мільйонах клітин, яка виконує самоувагу на всіх 27 874 людських генах. Для цього вони використовують подвійний енкодер: великий Performer (42 шари) обробляє верхні 4 096 генів з високою експресією, а менший (2 шари) обробляє решту ~24 000. Обидва виходи зливаються через повнорозмірний енкодер, що фіксує взаємодії між групами. scLong також інтегрує знання з генної онтології через графову згорткову мережу, вбудовуючи кожен ген інформацією про його відомі функції, процеси та клітинну локалізацію — контекст, який самі дані експресії не можуть надати. Результати послідовні та широкі. Прогнозуючи транскрипційні реакції на генетичні збурення, scLong досягає кореляції Пірсона 0,63 на невиявлених збуреннях, порівняно з 0,56–0,58 у існуючих моделях і GEARS. Він перевершує Geneformer, scGPT і DeepCE за прогнозуванням хімічних збурень за всіма метриками, досягає 0,873 Pearson за відповіддю на ліки від раку та випереджає як Geneformer, так і DeepSEM за виведенням регуляторних мереж генів. Ширша думка: у біологічних базових моделях те, чим ви звертаєте увагу, формує те, чого ви можете навчитися. Включаючи гени з низькою експресією та заземлюючі представлення у функціональні знання, scLong показує, що контекст масштабування — а не лише параметри — є ключем до повної складності клітинної регуляції. Принцип, який актуальний там, де залежності від ознак у довгостроковій перспективі є біологічно значущими, але обчислювально затратними для моделювання. Стаття: