Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mô hình hóa tất cả 28.000 gen cùng một lúc: một mô hình nền cho transcriptomics tế bào đơn lẻ
Mỗi tế bào trong cơ thể bạn mang cùng một bộ gen, nhưng một nơ-ron không giống và không hành xử như một tế bào gan. Sự khác biệt nằm ở việc các gen nào được bật hoặc tắt—và ở mức độ nào. Kỹ thuật giải trình tự RNA tế bào đơn lẻ (scRNA-seq) cho phép chúng ta đo lường hồ sơ biểu hiện đó từng tế bào một, tiết lộ các quần thể tế bào hiếm, điều hòa gen và phản ứng với thuốc ở độ phân giải chưa từng có.
Các mô hình nền được huấn luyện trước trên hàng triệu tế bào đã trở thành công cụ mạnh mẽ để phân tích những dữ liệu này. Nhưng tất cả chúng đều chia sẻ một thỏa hiệp thực tiễn: hạn chế cơ chế chú ý của chúng vào ~2.000 gen có biểu hiện cao và loại bỏ khoảng ~26.000 gen còn lại. Nhiều gen bị loại trừ đó, mặc dù có biểu hiện thấp, lại hoạt động như các công tắc điều hòa, tinh chỉnh các con đường tín hiệu và thúc đẩy các phản ứng cụ thể theo ngữ cảnh như kích hoạt miễn dịch hoặc kháng thuốc. Bỏ qua chúng có nghĩa là học một bức tranh không đầy đủ về tế bào.
Ding Bai và các đồng tác giả giải quyết vấn đề này với scLong, một mô hình có một tỷ tham số được huấn luyện trước trên 48 triệu tế bào, thực hiện tự chú ý trên tất cả 27.874 gen người. Để làm điều này khả thi, họ sử dụng một bộ mã hóa kép: một Performer lớn (42 lớp) xử lý 4.096 gen có biểu hiện cao nhất, trong khi một bộ mã hóa nhỏ hơn (2 lớp) xử lý khoảng ~24.000 gen còn lại. Cả hai đầu ra được hợp nhất thông qua một bộ mã hóa toàn bộ chiều dài, nắm bắt các tương tác giữa các nhóm. scLong cũng tích hợp kiến thức Gene Ontology thông qua một mạng nơ-ron tích chập đồ thị, nhúng mỗi gen với thông tin về chức năng, quy trình và vị trí tế bào đã biết của nó—bối cảnh mà dữ liệu biểu hiện một mình không thể cung cấp.
Kết quả nhất quán và rộng rãi. Trong việc dự đoán phản ứng phiên mã đối với các biến động di truyền, scLong đạt được hệ số tương quan Pearson là 0.63 trên các biến động chưa thấy, so với 0.56–0.58 cho các mô hình hiện có và GEARS. Nó vượt trội hơn Geneformer, scGPT và DeepCE trong việc dự đoán biến động hóa học trên tất cả các chỉ số, đạt 0.873 Pearson cho phản ứng thuốc ung thư, và vượt qua cả Geneformer và DeepSEM trong suy diễn mạng lưới điều hòa gen.
Điểm rộng hơn: trong các mô hình nền sinh học, những gì bạn chọn để chú ý đến hình thành những gì bạn có thể học. Bằng cách bao gồm các gen có biểu hiện thấp và định hướng các đại diện trong kiến thức chức năng, scLong cho thấy rằng việc mở rộng bối cảnh—không chỉ tham số—là chìa khóa để nắm bắt toàn bộ độ phức tạp của điều hòa tế bào. Một nguyên tắc có liên quan ở bất kỳ đâu mà các phụ thuộc đặc trưng dài hạn có ý nghĩa sinh học nhưng tốn kém về mặt tính toán để mô hình hóa.
Bài báo:

Hàng đầu
Thứ hạng
Yêu thích
