المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
نمذجة جميع الجينات ال 28,000 دفعة واحدة: نموذج أساسي لعلم النسخ الأحادي الخلية
كل خلية في جسمك تحمل نفس الجينوم، ومع ذلك فإن الخلية العصبية لا تبدو وتتصرف أبدا مثل خلية الكبد. الفرق يكمن في أي الجينات يتم تشغيلها أو إيقافها—وعلى أي مستوى. يتيح لنا تسلسل الحمض النووي الريبي أحادي الخلية (scRNA-seq) قياس هذا الملف التعبيري خلية تلو الأخرى، كاشفا عن مجموعات الخلايا النادرة، وتنظيم الجينات، واستجابة الأدوية بدقة غير مسبوقة.
أصبحت نماذج الأساس المدربة مسبقا على ملايين الخلايا أدوات قوية لتحليل هذه البيانات. لكنهم جميعا يشتركون في حل حل عملي: تقييد آلية انتباههم إلى ~2,000 جين عالي التعبير وتجاهل ~26,000 المتبقية. العديد من هذه الجينات المستبعدة، رغم انخفاض التعبير، تعمل كمفاتيح تنظيمية، ومضبوطة دقيقة لمسارات الإشارة، ومحركات لاستجابات خاصة بالسياق مثل تنشيط المناعة أو مقاومة الأدوية. تجاهلها يعني تعلم صورة غير مكتملة للخلية.
يعالج دينغ باي والمؤلفون المشاركون هذا الأمر من خلال نموذج scLong، وهو نموذج مكون من مليار معلمة تم تدريبه مسبقا على 48 مليون خلية ويقوم بالتركيز الذاتي عبر جميع الجينات البشرية البالغ عددها 27,874. لجعل ذلك ممكنا، يستخدمون مشفرا مزدوجا: يقوم المنفذ الكبير (42 طبقة) بمعالجة أعلى 4,096 جين عالي التعبير، بينما يتعامل منفذ أصغر (طبقتان) مع ~24,000 جين المتبقي. يندمج كلا المخرجين عبر مشفر كامل الطول يلتقط التفاعلات بين المجموعات. كما يدمج scLong معرفة أنطولوجيا الجينات عبر شبكة الالتفاف البيانية، حيث يدمج كل جين بمعلومات عن وظائفه المعروفة وعملياته وتوطينه الخلوي—وهو سياق لا يمكن لبيانات التعبير وحدها توفيره.
النتائج متسقة وواسعة. في التنبؤ بالاستجابات النسخية للاضطرابات الجينية، يحقق scLong ارتباط بيرسون بنسبة 0.63 على الاضطرابات غير المرئية، مقارنة ب 0.56–0.58 للنماذج الحالية وGEARS. يتفوق على Geneformer وscGPT وDeepCE في التنبؤ بالاضطرابات الكيميائية عبر جميع المقاييس، ويصل إلى 0.873 Pearson في الاستجابة لأدوية السرطان، ويتجاوز كل من Geneformer وDeepSEM في استدلال شبكات تنظيم الجينات.
النقطة الأوسع: في نماذج الأساس البيولوجي، ما تختار أن تهتم به يشكل ما يمكنك تعلمه. من خلال تضمين الجينات منخفضة التعبير والتمثيلات الراسخة في المعرفة الوظيفية، يظهر scLong أن توسيع السياق — وليس فقط المعلمات — هو المفتاح لالتقاط التعقيد الكامل لتنظيم الخلية. وهو مبدأ ذو صلة حيثما تكون تبعيات الميزات طويلة المدى ذات معنى بيولوجي لكنها مكلفة حسابيا للنمذجة.
الورقة:

الأفضل
المُتصدِّرة
التطبيقات المفضلة
