我已经对LLM进行了超过2年的微调! 以下是前5种LLM微调技术,配有视觉说明: 首先,LLM微调有什么不同之处? 传统的微调对于LLM(数十亿参数;数百GB)来说是不切实际的。 由于这种计算并非人人可及,参数高效微调(PEFT)应运而生。 在我们详细讨论每种技术之前,这里有一些背景知识,可以帮助你更好地理解这些技术: LLM权重是微调过程中调整的数字矩阵。 大多数PEFT技术涉及找到这些矩阵的低秩适应,即一个较小维度的矩阵,仍然可以表示原始矩阵中存储的信息。 现在,了解了矩阵的基本秩,我们就能很好地理解不同的微调技术。 (请参阅下方图像以获取每种技术的视觉解释) 1) LoRA - 在权重矩阵旁边添加两个低秩可训练矩阵A和B。 - 不微调W,而是调整这些低秩矩阵中的更新。 即使对于最大的LLM,LoRA矩阵也只占用几MB的内存。 2) LoRA-FA 虽然LoRA显著减少了可训练参数的总数,但它需要大量的激活内存来更新低秩权重。...