Kecemerlangan @karpathy adalah mampu menyaring konsep yang sangat kompleks dan membuatnya mudah dipahami dan diterapkan dalam skala kecil. Yang diperlukan hanyalah Claude Code dan $10 untuk @runpod untuk memutar satu H100, dan saya memiliki peneliti ML kelas dunia yang bekerja dengan autopilot. Saya mengambil konsep umum penelitian otomatis dan menerapkannya ke saluran inferensi yang telah saya kerjakan (untungnya tidak diperlukan GPU). Semuanya sangat menyenangkan sekarang.
Andrej Karpathy
Andrej Karpathy8 Mar, 03.53
Saya mengemas proyek "penelitian otomatis" ke dalam repo minimal mandiri baru jika orang ingin bermain selama akhir pekan. Ini pada dasarnya adalah inti pelatihan LLM nanochat yang dilucuti menjadi GPU tunggal, satu versi file dari ~630 baris kode, kemudian: - manusia mengulangi prompt (.md) - agen AI mengulangi kode pelatihan (.py) Tujuannya adalah untuk merekayasa agen Anda untuk membuat kemajuan penelitian tercepat tanpa batas waktu dan tanpa keterlibatan Anda sendiri. Dalam gambar, setiap titik adalah latihan LLM lengkap yang berlangsung tepat 5 menit. Agen bekerja dalam loop otonom pada cabang fitur git dan mengakumulasi komitmen git ke skrip pelatihan karena menemukan pengaturan yang lebih baik (kehilangan validasi yang lebih rendah pada akhirnya) dari arsitektur jaringan saraf, pengoptimal, semua hiperparameter, dll. Anda dapat membayangkan membandingkan kemajuan penelitian dari petunjuk yang berbeda, agen yang berbeda, dll. Kode bagian, sebagian fiksi ilmiah, dan sedikit psikosis :)
@karpathy @runpod membutuhkan teman seperti @ryaneshea untuk menghilangkan alasan (lemah) Anda untuk tidak hanya melakukan sesuatu
504