Как обучать модель, если обучающих данных нет? Именно этим занималась Team Cellmates в Autoimmune ML Challenge II от CrunchDAO. 1. Мариос Гавриелатос (@MariosGvr) 2. Константинос Кириакидис (@kokyriakidis) Вот как они это 👇 сделали
Задачей было предсказать экспрессию 2000 генов по изображениям тканей толстой кишки. Но пространственных образцов с таким генным покрытием не существует. Поэтому они создали обходной путь, используя известную экспрессию генов из похожих профилей отдельных клеток.
Они начали с своей собственной модели crunch1 для прогнозирования 460 значений экспрессии генов из векторов, извлечённых из изображений, окрашиваемых H&E, на нескольких уровнях увеличения. Модель была оптимизирована для минимизации среднеквадратической ошибки и приближения к реальности.
Затем они искали 5 самых похожих образцов из одной клетки для каждого пространственного изображения с помощью алгоритма FAISS, совпадая по полному набору из 2000 целевых генов. Каждый сосед предоставлял ценный биологический контекст для дальнейшего прогнозирования.
Для каждого образца они создали (5 2458) массивы, объединяющий 458 предсказанных генов и 2000 генов каждого из 5 ближайших соседей. Этот структурированный ввод стал основой для модели второго этапа.
Цель этой модели заключалась в прогнозировании средней экспрессии генов этих 5 соседей по всем 2000 целевых генам. Рассматривая это среднее как прокси наземной истинности, они создали контролируемую задачу из неконтролируемых данных.
Результатом стал двухмодельный конвейер, который захватывал сигналы на уровне генов из данных изображений с помощью интеллектуальной инженерии признаков и прокси-надзора. Это сработало. Их решение превзошло сотни других в глобальной биомедицинской задаче.
Команда Cellmates показала, что при правильной структуре и рассуждении даже несовершенные данные могут преобразоваться в мощные обучающие сигналы. Их решение напоминает, что креативное моделирование так же важно, как и исходные данные.
147