Miten malli koulutetaan, kun harjoitusdataa ei ole? Sitä Team Cellmates käsitteli CrunchDAO:n Autoimmune ML Challenge II:ssa. 1. Marios Gavrielatos (@MariosGvr) 2. Konstantinos Kyriakidis (@kokyriakidis) Näin he tekivät sen 👇
Haasteena oli ennustaa 2 000 geenin ilmentyminen paksusuolen kudoskuvista. Mutta spatiaalisia näytteitä, joilla on tämä geenipeitto, ei ole olemassa. Niinpä he rakensivat kiertotavan käyttämällä tunnettua geeniekspressiota samanlaisista yksisoluprofiileista.
He aloittivat mukautetulla crunch1-mallillaan ennustaakseen 460 geeniekspressioarvoa vektoreista, jotka oli poimittu H&E-värjätyistä kuvista useilla zoomaustasoilla. Malli optimoitiin minimoimaan keskimääräinen neliövirhe ja pysymään lähellä perustotuutta.
Sitten he etsivät 5 samankaltaisinta yksisolunäytettä kullekin tilakuvalle FAISS-algoritmin avulla, mikä vastaa kaikkia 2 000 kohdegeenin sarjaa. Jokainen naapuri tarjosi arvokasta biologista kontekstia alavirran ennustamiseen.
Jokaiselle näytteelle he loivat (5 2458) taulukon, joka yhdisti 458 ennustettua geeniä ja 2 000 geeniä jokaisesta viidestä lähimmästä naapurista. Tästä jäsennellystä panoksesta tuli toisen vaiheen mallin perusta.
Mallin tavoitteena oli ennustaa näiden viiden naapurin keskimääräinen geeniekspressio kaikissa 2 000 kohdegeenissä. Pitämällä tätä keskiarvoa perustotuuden sijaisena he loivat valvotun tehtävän valvomattomasta datasta.
Tuloksena oli kahden mallin putkisto, joka keräsi geenitason signaaleja kuvatiedoista älykkään ominaisuussuunnittelun ja välityspalvelimen valvonnan avulla. Se toimi. Heidän ratkaisunsa päihitti sadat muut maailmanlaajuisessa biolääketieteellisessä haasteessa.
Team Cellmates osoitti, että oikealla rakenteella ja päättelyllä epätäydellisetkin tiedot voidaan muuntaa tehokkaiksi oppimissignaaleiksi. Heidän ratkaisunsa on muistutus siitä, että luovalla mallinnuksella on yhtä paljon merkitystä kuin raakadatalla.
144