Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tim Andrew Ng pernah membuat kesalahan besar dalam sebuah makalah penelitian.
Dan itu terjadi karena pemisahan data secara acak.
Inilah yang terjadi (dengan solusi):
Adalah umum untuk menghasilkan set pelatihan dan validasi menggunakan pemisahan acak.
Namun, dalam banyak situasi, itu bisa berakibat fatal bagi pembuatan model.
Pertimbangkan untuk membuat model yang menghasilkan teks untuk gambar.
Karena sifat bahasa yang melekat, setiap gambar dapat memiliki banyak keterangan yang berbeda.
- Gambar-1 → Keterangan-1, Keterangan-2, Keterangan-3, dll.
- Gambar-2 → Keterangan-1, Keterangan-2, Keterangan-3, dll.
Periksa ini 👇

Jika kita menggunakan pemisahan acak, titik data (gambar) yang sama akan tersedia di set kereta dan validasi.
Akibatnya, kami akhirnya mengevaluasi model pada instans yang dilatihnya.
Ini adalah contoh kebocoran data (juga disebut kebocoran grup), yang mengakibatkan overfitting!

Hal yang sama terjadi dalam makalah Andrew Ng, di mana mereka menyiapkan kumpulan data medis untuk mendeteksi pneumonia.
- Total gambar = 112k
- Total pasien = 30k
Karena pemisahan acak, gambar pasien yang sama tersedia baik dalam set pelatihan maupun validasi.
Hal ini menyebabkan kebocoran data, dan skor validasi terlihat jauh lebih baik dari yang seharusnya.
Ini adalah makalah👇 awal mereka

Group shuffle split memecahkan ini.
Ada dua langkah:
1) Kelompokkan semua instance pelatihan yang sesuai dengan satu gambar.
2) Setelah pengelompokan, SELURUH GRUP (semua contoh dari satu gambar) harus ditetapkan secara acak ke set kereta atau validasi.
Ini akan mencegah kebocoran grup.

Jika Anda menggunakan Sklearn, GroupShuffleSplit mengimplementasikan ide ini.
Sebagai contoh, pertimbangkan kita memiliki kumpulan data berikut:
- x1 dan x2 adalah fitur-fiturnya.
- y adalah variabel target.
- grup menunjukkan kriteria pengelompokan.
Periksa ini 👇

Pertama, kami mengimpor GroupShuffleSplit dari sklearn dan membuat instance objek.
Selanjutnya, metode split() dari objek ini memungkinkan kita melakukan pemisahan grup. Ini mengembalikan generator, dan kita dapat membongkarnya untuk mendapatkan output berikut:
- Titik data dalam grup "A" dan "C" bersama-sama dalam kumpulan pelatihan.
- Titik data dalam grup "B" bersama-sama dalam kumpulan validasi/pengujian.
Periksa ini 👇

Beberapa hari kemudian, tim Andrew Ng memperbarui makalah setelah menggunakan strategi pemisahan kelompok yang sama untuk memastikan pasien yang sama tidak berakhir dalam set pelatihan dan validasi.
👉 Terserah Anda: Apakah Anda pernah menghadapi masalah ini sebelumnya?

11,83K
Teratas
Peringkat
Favorit

