Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Andrew Ng'nin ekibi bir keresinde bir araştırma makalesinde büyük bir hata yaptı.
Ve bu, verilerin rastgele bölünmesi nedeniyle oldu.
İşte tam olarak olanlar (çözümle birlikte):
Rastgele bölme kullanılarak tren ve doğrulama setleri oluşturmak yaygındır.
Ancak birçok durumda, model yapım için ölümcül olabilir.
Görseller için altyazı üreten bir model oluşturmayı düşünün.
Dilin doğası gereği, her görselin birçok farklı başlığı olabilir.
- Görsel-1 → Başlık-1, Başlık-2, Altyazı-3 vb.
- Görsel-2 → Başlık-1, Başlık-2, Başlık-3 vb.
Şuna 👇 bak

Rastgele bölme kullanırsak, aynı veri noktası (görüntü) tren ve doğrulama kümelerinde mevcut olacaktır.
Sonuç olarak, modeli eğitildiği örnekler üzerinde değerlendiriyoruz.
Bu, aşırı öğrenmeye neden olan bir veri sızıntısı (grup sızıntısı olarak da adlandırılır) örneğidir!

Aynı şey Andrew Ng'in makalesinde de oldu; burada zatürreyi tespit etmek için tıbbi bir veri seti hazırlanmıştı.
- Toplam görüntü = 112k
- Toplam hasta = 30k
Rastgele bölünme nedeniyle, aynı hastanın görüntüleri hem eğitim hem de doğrulama setlerinde mevcuttu.
Bu da veri sızıntısına yol açtı ve doğrulama puanları olması gerekenden çok daha iyi görünüyordu.
Bu onların ilk makalesi👇

Grup karıştırma bölünmesi bunu çözdü.
İki adım vardır:
1) Tüm eğitim örneklerini tek bir görsele göre gruplayın.
2) Gruplandırmadan sonra, TÜM GRUP (tek bir görüntünün tüm örnekleri) tren veya doğrulama kümesine rastgele atanmalıdır.
Bu, grup sızıntısını önler.

Eğer Sklearn kullanırsanız, GroupShuffleSplit bu fikri uygular.
Örneğin, aşağıdaki veri setimizi ele alalım:
- x1 ve x2 özelliklerdir.
- y hedef değişkendir.
- grup, gruplama kriterlerini gösterir.
Şuna 👇 bak

İlk olarak, sklearn'den GroupShuffleSplit'i içe aktarıp nesneyi başlatıyoruz.
Sonra, bu nesnenin split() yöntemi grup bölme yapmamıza olanak tanır. Bir jeneratör döndürüyor ve onu açıp aşağıdaki çıktıyı alabiliriz:
- "A" ve "C" gruplarındaki veri noktaları eğitim kümesinde birliktedir.
- "B" grubundaki veri noktaları doğrulama/test setinde birliktedir.
Şuna 👇 bak

Birkaç gün sonra, Andrew Ng'nin ekibi, aynı grup karıştırma bölme stratejisini kullanarak aynı hastaların hem eğitim hem de doğrulama setlerine girmemesini sağlamak için makaleyi güncelledi.
👉 Size soruyorum: Bu sorunla daha önce karşılaştınız mı?

18,52K
En İyiler
Sıralama
Takip Listesi

