Come si addestra un modello quando non esistono dati di addestramento? Questo è ciò che Team Cellmates ha affrontato in Autoimmune ML Challenge II di CrunchDAO. 1. Marios Gavrielatos (@MariosGvr) 2. Konstantinos Kyriakidis (@kokyriakidis) Ecco come hanno fatto 👇
La sfida era prevedere l'espressione di 2.000 geni dalle immagini del tessuto del colon. Ma i campioni spaziali con quella copertura genica non esistono. Così hanno costruito una soluzione alternativa utilizzando espressione genica nota da profili cellulari simili.
Hanno iniziato con il loro modello crunch1 personalizzato per prevedere valori di espressione genica di 460 gradi da vettori estratti da immagini colorate con H&E a più livelli di zoom. Il modello è stato ottimizzato per minimizzare l'errore quadratico medio e rimanere vicino alla verità del terreno.
Successivamente hanno cercato i 5 campioni cellulari singoli più simili per ogni immagine spaziale utilizzando l'algoritmo FAISS, corrispondendo all'intero insieme di 2.000 geni bersaglio. Ogni vicino forniva un prezioso contesto biologico per la previsione a valle.
Per ogni campione, hanno creato un array (5.2458) che combina i 458 geni previsti e 2.000 geni di ciascuno dei 5 vicini più prossimi. Questo input strutturato divenne la base per il modello di secondo stadio.
L'obiettivo di quel modello era prevedere l'espressione genica media di quei 5 vicini in tutti i 2.000 geni target. Trattando questa media come un proxy della verità sul terreno, hanno creato un compito supervisionato a partire da dati non supervisionati.
Il risultato è stato una pipeline a due modelli che ha catturato segnali a livello genico dai dati delle immagini utilizzando smart feature engineering e supervisione proxy. Ha funzionato. La loro soluzione ha superato centinaia di altre in una sfida biomedica globale.
Team Cellmates ha dimostrato che, con la giusta struttura e ragionamento, anche dati imperfetti possono essere trasformati in potenti segnali di apprendimento. La loro soluzione è un promemoria che la modellazione creativa conta quanto i dati grezzi.
139