Моделирование всех 28,000 генов одновременно: базовая модель для транскриптомики одиночных клеток Каждая клетка в вашем теле несет одинаковый геном, но нейрон выглядит и ведет себя совершенно иначе, чем клетка печени. Разница заключается в том, какие гены включены или выключены — и на каком уровне. Секвенирование РНК одиночных клеток (scRNA-seq) позволяет нам измерять этот профиль экспрессии по одной клетке за раз, раскрывая редкие клеточные популяции, регуляцию генов и ответ на лекарства с беспрецедентным разрешением. Базовые модели, предварительно обученные на миллионах клеток, стали мощными инструментами для анализа этих данных. Но все они имеют практический компромисс: ограничение своего механизма внимания до ~2,000 высокоэкспрессируемых генов и отбрасывание оставшихся ~26,000. Многие из этих исключенных генов, несмотря на низкую экспрессию, действуют как регуляторные переключатели, тонкие настройки сигнальных путей и драйверы контекстно-специфических ответов, таких как активация иммунной системы или резистентность к лекарствам. Игнорирование их означает изучение неполной картины клетки. Динг Бай и соавторы решают эту проблему с помощью scLong, модели с миллиардом параметров, предварительно обученной на 48 миллионах клеток, которая выполняет самовнимание по всем 27,874 человеческим генам. Чтобы сделать это возможным, они используют двойной кодировщик: большой Performer (42 слоя) обрабатывает 4,096 генов с высокой экспрессией, в то время как меньший (2 слоя) обрабатывает оставшиеся ~24,000. Оба вывода объединяются через полный кодировщик, захватывающий взаимодействия между группами. scLong также интегрирует знания о Геномной Онтологии через графовую сверточную сеть, встраивая каждый ген с информацией о его известных функциях, процессах и клеточной локализации — контексте, который данные о экспрессии сами по себе не могут предоставить. Результаты последовательны и обширны. При прогнозировании транскрипционных ответов на генетические нарушения scLong достигает коэффициента корреляции Пирсона 0.63 на невидимых нарушениях, по сравнению с 0.56–0.58 для существующих моделей и GEARS. Он превосходит Geneformer, scGPT и DeepCE в прогнозировании химических нарушений по всем метрикам, достигает 0.873 по Пирсону для ответа на противораковые препараты и превосходит как Geneformer, так и DeepSEM в выводе регуляторной сети генов. Широкая мысль: в биологических базовых моделях то, на что вы решаете обратить внимание, формирует то, что вы можете узнать. Включив гены с низкой экспрессией и основывая представления на функциональных знаниях, scLong показывает, что масштабирование контекста — не только параметров — является ключом к захвату всей сложности клеточной регуляции. Принцип, актуальный везде, где зависимости длинных признаков имеют биологическое значение, но вычислительно дорого моделировать. Статья: