Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Robo-Dopamin: Robotik Hassasiyette Oyun Değiştirici – İnsan Sezgisini Taklit Eden Süreç Ödülleri!
Bu çığır açan makale, robotik öğrenmeyi kaba sonuç odaklı ödüllerden sofistike süreç odaklı ödüllere dönüştüren Robo-Dopamin adlı bir çerçeveyi tanıtıyor.
3.400+ saatlik devasa bir çoklu görüş veri seti üzerinde eğitim alarak, Genel Ödül Modeli (GRM), manipülasyon ilerlemesini değerlendirmede %92,8 doğruluk sağlar; perspektifleri birleştirerek tıkanıklıkları ve ince detayları daha önce hiç olmadığı kadar ele alır.
Havlu katlamak veya küp yığmak gibi gerçek dünya testlerinde, Dopamin-RL politikaları sadece 150 kullanımla başarı oranlarını %95'e çıkarıyor – bu yaklaşık bir saat robot zamanı!
İlginç içgörüler:
• Geleneksel ödül şekillendirmedeki "anlamsal tuzağı"ndan kaçınıyor, politikaların optimal olmayan döngülerde takılmadan optimize edilmesini sağlıyor – güvenilir yapay zeka için teorik bir kazanç.
•Genelleme yapar: Simülasyondan gerçek, görünmeyen nesnelere ve düzenlere, OOD senaryolarında sadece %8-20 düşer, rakiplerin %50-60 oranına düşer.
•Sonuçları? Cerrahlar, fabrikalar ve ev asistanları kısa sürede hassas işlemleri insan gibi incelikle, hataları ve eğitim süresini azaltarak halledebilirdi.
Bugün bunu test edeceğim!
Tam makale: –

En İyiler
Sıralama
Takip Listesi
