Jak trénovat model, když neexistují žádná trénovací data? To je to, čemu se Team Cellmates věnoval v CrunchDAO Autoimmune ML Challenge II. 1. Marios Gavrielatos (@MariosGvr) 2. Konstantinos Kyriakidis (@kokyriakidis) Takhle to udělali 👇
Výzvou bylo předpovědět expresi 2 000 genů z obrazů tlustého střeva. Ale prostorové vzorky s takovým genovým pokrytím neexistují. Proto vytvořili řešení využívající známou genovou expresi z podobných profilů jednotlivých buněk.
Začali svým vlastním modelem crunch1, který předpovídal 460 hodnot genové exprese z vektorů extrahovaných z H&E-barvených snímků na různých úrovních přiblížení. Model byl optimalizován tak, aby minimalizoval střední čtvercovou chybu a zůstal blízko skutečné správnosti.
Poté pomocí algoritmu FAISS vyhledali 5 nejpodobnějších vzorků jednotlivých buněk pro každý prostorový obraz, přičemž porovnali na celé sadě 2 000 cílových genů. Každý soused poskytoval cenný biologický kontext pro následné předpovědi.
Pro každý vzorek vytvořili (5 2458) pole kombinující 458 předpovězených genů a 2 000 genů z každého z 5 nejbližších sousedů. Tento strukturovaný vstup se stal základem modelu druhé fáze.
Cílem tohoto modelu bylo předpovědět průměrnou expresi genů těchto 5 sousedů napříč všemi 2 000 cílovými geny. Tím, že tento průměr považovali za zástupce skutečné informace, vytvořili z neřízených dat dozorovaný úkol.
Výsledkem byl dvoumodelový pipeline, který zachytával signály na úrovni genů z obrazových dat pomocí chytrého inženýrství funkcí a proxy dohledu. Fungovalo to. Jejich řešení překonalo stovky jiných v globální biomedicínské výzvě.
Team Cellmates ukázal, že s vhodnou strukturou a uvažováním lze i nedokonalá data přeměnit na silné učební signály. Jejich řešení je připomínkou, že kreativní modelování je stejně důležité jako surová data.
149