トレーニングデータが存在しない状態で、どうやってモデルを訓練するのでしょうか? それがTeam CellmatesがCrunchDAOのAutoimmune ML Challenge IIで取り組んだことです。 1. マリオス・ガブリエラトス(@MariosGvr) 2. コンスタンティノス・キリアキディス(@kokyriakidis) 彼らがやり遂げ👇た方法は以下の通りです
課題は、大腸組織画像から2,000の遺伝子の発現を予測することでした。 しかし、その遺伝子カバレッジを持つ空間サンプルは存在しません。そこで、類似した単一細胞プロファイルから既知の遺伝子発現を用いて回避策を開発しました。
彼らはカスタムCrunch1モデルを用いて、H&E染色画像から抽出したベクターから複数のズームレベルで460の遺伝子発現値を予測しました。 モデルは平均二乗誤差を最小化し、実際の真実に近づくよう最適化されました。
次に、FAISSアルゴリズムを用いて、2,000のターゲット遺伝子の全セットで一致する、各空間画像に対して最も似た5つの単一細胞サンプルを検索しました。 それぞれの隣接する者は、下流予測のための貴重な生物学的文脈を提供しました。
各サンプルに対して、予測された458遺伝子と5つの最近傍遺伝子それぞれの2,000遺伝子を組み合わせた(5,2458)配列を作成しました。 この構造化された入力が第2段階モデルの基盤となりました。
そのモデルの目的は、これら5つの隣接遺伝子の平均発現を2,000のターゲット遺伝子すべてで予測することでした。 その平均を実際の真実の代理として扱うことで、教師なしデータから教師ありのタスクを作り出しました。
その結果、スマート特徴工学とプロキシ監督を用いて画像データから遺伝子レベルのシグナルをキャプチャする2モデルパイプラインが完成しました。 うまくいった。彼らのソリューションは、世界的な生物医学的課題において、他の数百ものを上回る成果を上げました。
Team Cellmatesは、適切な構造と論理があれば、不完全なデータでも強力な学習信号に変換できることを示しました。 彼らの解決策は、創造的なモデリングが生データと同じくらい重要であることを思い出させてくれます。
156