Hoe train je een model als er geen trainingsdata bestaat? Dat is wat Team Cellmates aanpakten in CrunchDAO's Autoimmune ML Challenge II. 1. Marios Gavrielatos (@MariosGvr) 2. Konstantinos Kyriakidis (@kokyriakidis) Zo deden ze het 👇
De uitdaging was om de expressie van 2.000 genen te voorspellen op basis van beelden van het darmweefsel. Maar ruimtelijke monsters met die gendekking bestaan niet. Dus bouwden ze een workaround met bekende genexpressie van vergelijkbare single-cel profielen.
Ze begonnen met hun aangepaste crunch1-model om 460 genexpressiewaarden te voorspellen uit vectoren die zijn geëxtraheerd uit H&E-gekleurde beelden bij meerdere zoomniveaus. Het model is geoptimaliseerd om gemiddelde kwadratische fout te minimaliseren en dicht bij de grondwaarheid te blijven.
Vervolgens zochten ze naar de 5 meest vergelijkbare single-cell monsters voor elk ruimtelijk beeld met behulp van het FAISS-algoritme, dat overeenkwam met de volledige set van 2.000 doelgenen. Elke buur leverde waardevolle biologische context voor downstream voorspellingen.
Voor elk monster creëerden ze een (5, 2458) array die de 458 voorspelde genen en 2.000 genen van elk van de 5 dichtstbijzijnde buren combineerde. Deze gestructureerde input werd de basis voor het model van de tweede fase.
Het doel van dat model was om de gemiddelde genexpressie van die 5 buren te voorspellen over alle 2.000 doelgenen. Door dat gemiddelde te behandelen als een proxy voor de waarheid op de grond, creëerden ze een begeleide taak uit ongecontroleerde data.
Het resultaat was een pijplijn met twee modellen die gen-niveau signalen uit beeldgegevens vastlegde met behulp van slimme feature engineering en proxy-supervisie. Het werkte. Hun oplossing presteerde beter dan honderden andere in een wereldwijde biomedische uitdaging.
Team Cellmates toonde aan dat met de juiste structuur en redenering zelfs onvolmaakte data kan worden omgezet in krachtige leersignalen. Hun oplossing is een herinnering dat creatief modelleren net zo belangrijk is als ruwe data.
149