Pertanyaan wawancara LLM yang populer: "Jelaskan 4 tahap pelatihan LLM dari awal." (penjelasan langkah demi langkah di bawah)
Terutama ada 4 tahap membangun LLM dari awal: - Pra-pelatihan - Penyetelan instruksi - Penyetelan preferensi - Penyempurnaan penalaran Mari kita pahami masing-masing! 0️⃣ LLM yang diinisialisasi secara acak Pada titik ini, model tidak tahu apa-apa. Anda bertanya "Apa itu LLM?" dan mendapatkan omong kosong seperti "coba tangan peter dan halo 448Sn". Itu belum melihat data apa pun dan hanya memiliki bobot acak. 1️⃣ Pra-pelatihan Tahap ini mengajarkan LLM dasar-dasar bahasa dengan melatihnya pada korpus besar untuk memprediksi token berikutnya. Dengan cara ini, ia menyerap tata bahasa, fakta dunia, dll. Tapi itu tidak baik dalam percakapan karena ketika diminta, itu hanya melanjutkan teks. 2️⃣ Penyetelan instruksi Untuk membuatnya percakapan, kami melakukan Penyempurnaan Instruksi dengan melatih pasangan instruksi-respons. Ini membantunya mempelajari cara mengikuti petunjuk dan memformat balasan. Sekarang bisa: - Menjawab pertanyaan - Merangkum konten - Tulis kode, dll. Pada titik ini, kita kemungkinan: - Memanfaatkan seluruh arsip dan pengetahuan internet mentah. - Anggaran untuk data respons instruksi berlabel manusia. Jadi apa yang dapat kita lakukan untuk lebih meningkatkan model? Kami memasuki wilayah Reinforcement Learning (RL). 3️⃣ Penyetelan halus preferensi (PFT) Anda pasti pernah melihat layar di ChatGPT yang bertanya: Tanggapan mana yang Anda sukai? Itu bukan hanya untuk umpan balik, tetapi juga data preferensi manusia yang berharga. OpenAI menggunakan ini untuk menyempurnakan model mereka menggunakan penyempurnaan preferensi. Dalam PFT: Pengguna memilih di antara 2 respons untuk menghasilkan data preferensi manusia. Model hadiah kemudian dilatih untuk memprediksi preferensi manusia, dan LLM diperbarui menggunakan RL. Proses di atas disebut RLHF (Reinforcement Learning with Human Feedback), dan algoritma yang digunakan untuk memperbarui bobot model disebut PPO. Ini mengajarkan LLM untuk menyelaraskan dengan manusia bahkan ketika tidak ada jawaban yang "benar". Tapi kita bisa meningkatkan LLM lebih banyak lagi. 4️⃣ Penyempurnaan penalaran Dalam tugas penalaran (matematika, logika, dll.), Biasanya hanya ada satu respons yang benar dan serangkaian langkah yang ditentukan untuk mendapatkan jawabannya. Jadi kita tidak membutuhkan preferensi manusia, dan kita dapat menggunakan kebenaran sebagai sinyal. Langkah: - Model menghasilkan jawaban atas perintah. - Jawabannya dibandingkan dengan jawaban yang benar yang diketahui. - Berdasarkan kebenaran, kami menetapkan hadiah. Ini disebut Reinforcement Learning dengan Reward yang Dapat Diverifikasi. GRPO oleh DeepSeek adalah teknik yang populer. Itulah 4 tahap pelatihan LLM dari awal. - Mulailah dengan model yang diinisialisasi secara acak. - Pra-latihnya pada corpora skala besar. - Gunakan penyempurnaan instruksi untuk membuatnya mengikuti perintah. - Gunakan penyempurnaan preferensi & penalaran untuk mempertajam tanggapan. 👉 Terserah Anda: Bagaimana Anda akan lebih meningkatkan LLM Anda?
11,97K