Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Makalah NVIDIA ini baru saja menghancurkan otak saya.
Semua orang terus berbicara tentang penskalaan transformator dengan kluster yang lebih besar dan pengoptimal yang lebih cerdas... sementara itu, NVIDIA dan Oxford baru saja menunjukkan bahwa Anda dapat melatih model miliaran parameter menggunakan strategi evolusi, metode yang kebanyakan orang anggap kuno.
Triknya adalah sistem baru yang disebut EGGROLL, dan membalik seluruh model biaya ES.
Biasanya, ES mati dalam skala besar karena Anda harus menghasilkan matriks gangguan peringkat penuh untuk setiap anggota populasi. Untuk model miliaran parameter, itu berarti gerakan memori yang gila dan komputasi yang konyol.
Orang-orang ini menyelesaikannya dengan menghasilkan gangguan peringkat rendah menggunakan dua matriks kurus A dan B dan membiarkan ABT bertindak sebagai pembaruan.
Rata-rata populasi kemudian berperilaku seperti pembaruan peringkat penuh tanpa membayar harga peringkat penuh.
Hasilnya?
Mereka menjalankan strategi evolusi dengan ukuran populasi ratusan ribu yang tidak dapat disentuh oleh pekerjaan sebelumnya karena semuanya meleleh di bawah tekanan ingatan. Sekarang, throughput pada dasarnya secepat inferensi batch.
Itu tidak pernah terdengar untuk metode bebas gradien apa pun.
Matematika juga diperiksa.
Perkiraan peringkat rendah menyatu ke gradien ES yang sebenarnya pada tingkat 1/r, sehingga mendorong peringkat menciptakan kembali perilaku ES penuh tanpa ledakan komputasi.
Tapi eksperimen adalah di mana itu menjadi gila.
→ Mereka melatih LM berulang dari awal hanya menggunakan tipe data bilangan bulat. Tidak ada gradien. Tidak ada backprop. Sepenuhnya stabil bahkan pada skala tinggi.
→ Mereka cocok dengan metode tingkat GRPO pada tolok ukur penalaran LLM.
Itu berarti ES dapat bersaing dengan pendekatan RL-untuk-penalaran modern pada tugas-tugas nyata.
→ ES tiba-tiba menjadi layak untuk sistem masif, diskrit, hibrida, dan tidak dapat dibedakan di tempat yang tepat di mana backprop menyakitkan atau tidak mungkin.
...

Teratas
Peringkat
Favorit

