Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Pembelajaran Fitur Tenang di Transformers
Ini adalah salah satu makalah paling menarik yang pernah saya baca minggu ini.
Izinkan saya menjelaskan:
Ini berpendapat bahwa kurva kerugian dapat menyesatkan tentang apa yang dipelajari model.
Pendekatan default untuk memantau pelatihan jaringan saraf bergantung pada kehilangan sebagai ukuran kemajuan utama. Jika kerugian datar, tidak ada yang terjadi. Jika kehilangan turun, pembelajaran sedang terjadi.
Tetapi asumsi ini dipecah pada tugas algoritmik.
Penelitian baru ini melatih Transformers pada sepuluh tugas algoritmik dasar dan menemukan "fitur tenang": representasi internal yang berkembang sementara kehilangan tampak stagnan.
Mereka menemukan bahwa model mempelajari langkah-langkah komputasi menengah jauh sebelum langkah-langkah tersebut meningkatkan kinerja output. Bawa bit sebagai tambahan, keanggotaan antrian di BFS, produk parsial dalam perkalian. Fitur-fitur ini muncul selama dataran tinggi yang diperpanjang, kemudian tiba-tiba bergabung untuk menyelesaikan tugas.
Para peneliti menyelidiki representasi internal di seluruh aritmatika biner (penjumlahan, perkalian), algoritma grafik (BFS, jalur terpendek, penyortiran topologi, MST), dan pengoptimalan urutan (subarray maksimum, pemilihan aktivitas).
Enam tugas menunjukkan transisi dua fase yang jelas: stagnasi berkepanjangan diikuti dengan peningkatan kinerja yang tiba-tiba.
Eksperimen ablasi mengkonfirmasi kausalitas. Menghapus fitur carry dari model penambahan 64-bit menyebabkan penurunan akurasi 75,1%. Ablating queue membership di BFS menurunkan akurasi sebesar 43,6%.
Tugas algoritmik membutuhkan beberapa subrutin yang berfungsi bersama. Komponen individual yang benar tidak mengurangi kehilangan sampai semua bagian sejajar. Model mengakumulasi kemampuan laten di bawah kurva kerugian datar.
Tampaknya kehilangan entropi silang adalah diagnostik yang tidak lengkap. Pembelajaran internal yang substansial dapat terjadi sementara metrik tampak stagnan. Ini memotivasi alat pemantauan yang lebih kaya di luar kurva kerugian.
🔖 (tandai)
Kertas:

Teratas
Peringkat
Favorit

