我已經調整 LLM 超過 2 年了! 以下是前 5 種 LLM 微調技術,並附有視覺說明: 首先,LLM 微調有什麼不同之處? 傳統的微調對於 LLM(數十億參數;數百 GB)來說是不切實際的。 由於這種計算資源並非人人可得,因此出現了參數高效微調(PEFT)。 在我們深入每種技術的細節之前,這裡有一些背景知識,可以幫助你更好地理解這些技術: LLM 權重是微調過程中調整的數字矩陣。 大多數 PEFT 技術涉及尋找這些矩陣的低秩適應,即一個較小維度的矩陣,仍然可以表示原始矩陣中存儲的信息。 現在,對矩陣的秩有了基本的理解,我們就能很好地理解不同的微調技術。 (請參考下方圖片以獲得每種技術的視覺解釋) 1) LoRA - 在權重矩陣旁邊添加兩個低秩可訓練矩陣 A 和 B。 - 不要微調 W,而是調整這些低秩矩陣中的更新。 即使是最大的 LLM,LoRA 矩陣也只佔用幾 MB 的內存。 2) LoRA-FA 雖然 LoRA 顯著減少了可訓練的總參數,但它需要大量的激活內存來更新低秩權重。...