Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Я вже понад 2 роки вдосконалюю LLM!
Ось топ-5 технік тонкого налаштування LLM, пояснених візуально:
По-перше, що такого особливого в finetuning LLM?
Традиційне тонке налаштування непрактично для LLM (мільярди параметрів; 100 ГБ).
Оскільки такі обчислення доступні не всім, з'явилося параметро-ефективное налаштування (PEFT).
Перш ніж перейти до деталей кожної техніки, ось трохи передісторії, яка допоможе вам краще зрозуміти ці техніки:
Ваги LLM — це матриці чисел, змінених під час тонкого налаштування.
Більшість методів PEFT передбачають пошук адаптації нижчого рангу цих матриць — матриці меншої розмірності, яка все ще може представляти інформацію, збережену в оригіналі.
Тепер, маючи базове розуміння рангу матриці, ми маємо хорошу позицію для розуміння різних технік тонкого налаштування.
(див. зображення нижче для візуального пояснення кожної техніки)
1) LoRA
- Додати дві низькорангові навчальні матриці, A та B, разом із ваговими матрицями.
- Замість тонкого налаштування W, коригуйте оновлення в цих низькорангових матрицях.
Навіть для найбільших LLM матриці LoRA займають кілька МБ пам'яті.
2) LoRA-FA
Хоча LoRA суттєво зменшує загальну кількість навчаних параметрів, для оновлення низькорангових ваг потрібна значна активаційна пам'ять....

Найкращі
Рейтинг
Вибране

