كيف تدرب نموذجا في حالة عدم وجود بيانات تدريب؟ هذا ما عالجه Team Cellmates في تحدي ML للمناعة الذاتية II من CrunchDAO. 1. ماريوس جافريلاتوس (@MariosGvr) 2. كونستانتينوس كيرياكيديس (@kokyriakidis) إليك كيف فعلوا ذلك 👇
كان التحدي هو التنبؤ بالتعبير عن 2000 جين من صور أنسجة القولون. لكن العينات المكانية مع تلك التغطية الجينية غير موجودة. لذلك قاموا ببناء حل بديل باستخدام التعبير الجيني المعروف من ملفات تعريف خلية واحدة مماثلة.
بدأوا بنموذج crunch1 المخصص الخاص بهم للتنبؤ ب 460 قيمة تعبير جيني من المتجهات المستخرجة من الصور الملطخة ب H & E بمستويات تكبير متعددة. تم تحسين النموذج لتقليل متوسط الخطأ التربيعي والبقاء قريبا من الحقيقة الأرضية.
ثم بحثوا عن 5 عينات أحادية الخلية الأكثر تشابها لكل صورة مكانية باستخدام خوارزمية FAISS ، المطابقة مع المجموعة الكاملة المكونة من 2,000 جين مستهدف. قدم كل جار سياقا بيولوجيا قيما للتنبؤ بمصب.
لكل عينة ، قاموا بإنشاء مصفوفة (5،2458) تجمع بين 458 جينا متوقعا و 2000 جين من كل من أقرب 5 جيران. أصبح هذا المدخل المنظم هو الأساس لنموذج المرحلة الثانية.
كان هدف هذا النموذج هو التنبؤ بمتوسط التعبير الجيني لهؤلاء الجيران الخمسة عبر جميع الجينات المستهدفة البالغ عددها 2000 جين. من خلال التعامل مع هذا المتوسط كوكيل للحقيقة الأساسية ، قاموا بإنشاء مهمة خاضعة للإشراف من البيانات غير الخاضعة للإشراف.
وكانت النتيجة خط أنابيب من نموذجين يلتقط إشارات على مستوى الجينات من بيانات الصور باستخدام هندسة الميزات الذكية والإشراف على الوكيل. إنه كان مجديًا. تفوق حلهم على مئات الآخرين في تحد طبي حيوي عالمي.
أظهر Team Cellmates أنه مع الهيكل الصحيح والمنطق ، يمكن تحويل البيانات غير الكاملة إلى إشارات تعليمية قوية. حلهم هو تذكير بأن النمذجة الإبداعية مهمة بقدر أهمية البيانات الأولية.
‏‎144‏