Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bir dil modeli, açık yapısal eğitim verisi olmadan RNA yapısını öğrenebilir mi?@NatureComms @Tsinghua_Uni
"ERNIE-RNA: yapı açısından geliştirilmiş temsillere sahip bir RNA dil modeli"
• Mevcut RNA dil modelleri, dizilerdeki yapısal bilgiyi gözden kaçırır; bu da RNA'nın hiyerarşik organizasyonuna rağmen, birincil dizileri biyolojik fonksiyonları belirleyen belirli yapısal konformasyonlara katlanır ve eksik özelliklerin çıkarılmasına ve optimal olmayan performansa yol açar. RNA yapısı tahmini için geleneksel hesaplama yaklaşımları belirgin zorluklarla karşı karşıyadır: termodinamik tabanlı yöntemler parametre doğruluğuyla sınırlıdır, hizalama tabanlı yöntemler yeterli homolog diziler olmadan zorlanır ve derin öğrenme modelleri görünmeyen RNA ailelerine sınırlı genelleme gösterir. RNA-FM (23 milyon dizide eğitilmiş UNI-RNA), UNI-RNA (1 milyar dizi, 400M parametre) ve RiNALMo (36M dizili, 650M parametre) gibi BERT tarzı RNA dil modelleri ortaya çıkmış olsa da, yapısal bilgiyi yeterince dahil edememektedir; UTR-LM gibi bazıları bunu RNAfold'dan tahmin edilen yapıları dahil ederek çözmeye çalışır ancak tahmin hataları ve azalmış genelleştirme yeteneği nedeniyle sınırlamalarla karşılaşmaktadır.
• ERNIE-RNA, modifiye BERT mimarisine dayanan, 12 transformatör bloğu ve 12 dikkat başlığına sahip, 1022 nükleotidden uzun dizileri filtreleyip %100 benzerlikle CD-HIT yedekliliği kaldırımı uygulandıktan sonra RNAcentral'dan 20,4 milyon kodlanmayan RNA dizisi üzerinde eğitilmiş, 86 milyon parametreli önceden eğitilmiş bir RNA dil modelidir. Model, AU çiftleri için 2, CG çiftleri için 3 ve GU çiftleri için ayarlanabilir bir parametre α (başlangıçta 0.8) değerlerini veren ve ilk transformatör katmanındaki önyargı terimini değiştiren bir çift çift matrisinde ayarlanan bir denge önyargısı (başlangıçta 0.8) bir denge önyargısı mekanizmasını içeriyor. Ön eğitim, tokenların %15'i rastgele değiştirilerek maskeli dil modellemesi kullandı, 20 gün boyunca 24 adet 32G-V100 GPU üzerinde fairseq kullanılarak 0.0001 temel öğrenme oranı, 20.000 ısınma adımı ve 0.01 ağırlık kaybı ile eğitildi; çıktı olarak hem dikkat haritaları (L×L×156) hem de token gömütmeleri (12×768×L) üretildi.
• ERNIE-RNA'nın dikkat haritaları, bpRNA-1m test setinde ortalama F1 puanı 0.552 ile sıfır atışlı RNA ikincil yapı tahmin yeteneğini gösterdi ve ince ayar olmadan RNAfold (0.492), RNAstructure (0.491), RNAErnie (0.440) ve RNA-BERT (0.365)'i geride bıraktı. İnce ayarlamadan sonra, ERNIE-RNA, BPRNA-1M ÜZERINDE EN SON MAKRO-ORTALAMA F1 puanları olan 0.873'e ulaştı; bu, RiNALMo (0.850, 650M parametreler) ve UNI-RNA'yı (0.821, 400M parametreler) karşısında geride bıraktı; benzer liderlikle ArchiveII (0.954 vs RiNALMo 0.892) ve RIVAS TestSetB'de (0.721 vs RiNALMo 0.555) öne çıktı. Zorlu çapraz aile genellemesi testlerinde, ERNIE-RNA FROZEN BPRNA-NEW'DE 0.646 VE RNA3DB-2D'de 0.590 F1 puanları elde etti; bu puan Eternafold (0.639) gibi geleneksel dinamik programlama yöntemlerini geride bıraktı ve tüm derin öğrenme rakiplerine karşı üstünlüğünü korudu. ERNIE-RNA ayrıca çeşitli sonraki görevlerde üstün performans elde etti: RNA temas haritası tahmini Top-L/1 hassasiyeti 0.68 (RNAkontakt topluluğu 0.46'ya karşı), 5'UTR MRL tahmini R² ile rastgele test setinde 0.92 ve insan test setinde 0.86, RNA-protein bağlanma tahmini tüm test yöntemlerinden daha iyi performans gösterdi, ncRNA ailesi sınıflandırma hassasiyeti 0.9844 (%0 sınır gürültüsü) ve 0.9820 (%200 sınır gürültüsü) idi, Dört tür arasında 0.9180 ile 0.9612 arasında değişen splice site tahmin F1 puanları, SpliceAI veri setinde %55.37 (RNA-FM'lere karşı %34.84) en üst K doğruluğu ve %78.39 (RNA-FM'lere karşı %70.32) alternatif poliadenilasyon tahmini R² oranı %78.39 (RNA-FM'lere karşılık).
Yazarlar: Weijie Yin, Zhaoyu Zhang, Shuo Zhang, Liang He ve diğerleri. al Xuegong Zhang, Tao Qin ve Zhen Xie
Bağlantı:

En İyiler
Sıralama
Takip Listesi

