Bagaimana Anda melatih model ketika tidak ada data pelatihan? Itulah yang ditangani Team Cellmates di Autoimmune ML Challenge II CrunchDAO. 1. Marios Gavrielatos (@MariosGvr) 2. Konstantinos Kyriakidis (@kokyriakidis) Begini cara mereka melakukannya 👇
Tantangannya adalah memprediksi ekspresi 2.000 gen dari gambar jaringan usus besar. Tetapi sampel spasial dengan cakupan gen itu tidak ada. Jadi mereka membangun solusi menggunakan ekspresi gen yang diketahui dari profil sel tunggal yang serupa.
Mereka memulai dengan model crunch1 khusus mereka untuk memprediksi 460 nilai ekspresi gen dari vektor yang diekstraksi dari gambar bernoda H&E pada beberapa tingkat zoom. Model ini dioptimalkan untuk meminimalkan kesalahan kuadrat rata-rata dan tetap dekat dengan kebenaran dasar.
Kemudian mereka mencari 5 sampel sel tunggal yang paling mirip untuk setiap gambar spasial menggunakan algoritma FAISS, yang cocok pada set lengkap 2.000 gen target. Setiap tetangga memberikan konteks biologis yang berharga untuk prediksi hilir.
Untuk setiap sampel, mereka membuat array (5.2458) yang menggabungkan 458 gen yang diprediksi dan 2.000 gen dari masing-masing dari 5 tetangga terdekat. Input terstruktur ini menjadi dasar untuk model tahap kedua.
Tujuan model itu adalah untuk memprediksi ekspresi gen rata-rata dari 5 tetangga tersebut di semua 2.000 gen target. Dengan memperlakukan rata-rata itu sebagai proksi untuk kebenaran dasar, mereka menciptakan tugas yang diawasi dari data yang tidak diawasi.
Hasilnya adalah pipeline dua model yang menangkap sinyal tingkat gen dari data gambar menggunakan rekayasa fitur pintar dan pengawasan proxy. Itu berhasil. Solusi mereka mengungguli ratusan lainnya dalam tantangan biomedis global.
Team Cellmates menunjukkan bahwa dengan struktur dan penalaran yang tepat, bahkan data yang tidak sempurna pun dapat diubah menjadi sinyal pembelajaran yang kuat. Solusi mereka adalah pengingat bahwa pemodelan kreatif sama pentingnya dengan data mentah.
145