Jak wytrenować model, gdy nie istnieją żadne dane treningowe? Z tym właśnie zmierzył się Team Cellmates w Autoimmune ML Challenge II firmy CrunchDAO. 1. Marios Gavrielatos (@MariosGvr) 2. Konstantinos Kyriakidis (@kokyriakidis) Oto, jak to 👇 zrobili
Wyzwanie polegało na przewidzeniu ekspresji 2000 genów na podstawie obrazów tkanki jelita grubego. Ale próbki przestrzenne z takim pokryciem genów nie istnieją. Stworzyli więc obejście, wykorzystując znaną ekspresję genów z podobnych profili pojedynczych komórek.
Rozpoczęli od niestandardowego modelu crunch1, aby przewidzieć 460 wartości ekspresji genów z wektorów wyodrębnionych z obrazów wybarwionych H&E na wielu poziomach powiększenia. Model został zoptymalizowany w celu zminimalizowania błędu średniokwadratowego i utrzymania wierności podstawowej.
Następnie szukali 5 najbardziej podobnych próbek pojedynczych komórek dla każdego obrazu przestrzennego za pomocą algorytmu FAISS, dopasowując się do pełnego zestawu 2000 docelowych genów. Każdy z sąsiadów dostarczył cennego kontekstu biologicznego do prognozowania w dalszej części rzeki.
Dla każdej próbki stworzyli (5 2458) tablicę łączącą 458 przewidywanych genów i 2000 genów z każdego z 5 najbliższych sąsiadów. Te ustrukturyzowane dane wejściowe stały się podstawą dla modelu drugiego etapu.
Celem tego modelu było przewidzenie średniej ekspresji genów tych 5 sąsiadów we wszystkich 2000 genów docelowych. Traktując tę średnią jako wskaźnik zastępczy dla podstawowej prawdy, stworzyli nadzorowane zadanie na podstawie nienadzorowanych danych.
W rezultacie powstał dwumodelowy potok, który przechwycił sygnały na poziomie genów z danych obrazowych przy użyciu inteligentnej inżynierii funkcji i nadzoru proxy. Udało się. Ich rozwiązanie przewyższyło setki innych w globalnym wyzwaniu biomedycznym.
Zespół Team Cellmates wykazał, że przy odpowiedniej strukturze i rozumowaniu nawet niedoskonałe dane mogą zostać przekształcone w potężne sygnały uczenia się. Ich rozwiązanie przypomina, że kreatywne modelowanie jest tak samo ważne, jak surowe dane.
140