Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
cuối cùng, bài luận cuối cùng của tôi trong chương trình tiến sĩ
🧮 Học cách Lập luận trong 13 Tham số 🧮
chúng tôi phát triển TinyLoRA, một phương pháp ft mới. với TinyLoRA + RL, các mô hình học tốt với hàng chục hoặc hàng trăm tham số
ví dụ: chúng tôi chỉ sử dụng 13 tham số để huấn luyện mô hình Qwen 7B từ 76 đến 91% trên GSM8K 🤯

có một bài báo tôi thích từ năm 2018 có tên là Chơi Atari với Sáu Neuron. nó đã đưa ra tiền lệ rằng RL có thể học một số "chương trình" chỉ tốn rất ít byte
nhưng việc tinh chỉnh nhỏ nhất mà mọi người thường làm ngày nay là LoRA với rank=1, điều này vẫn sử dụng hàng triệu tham số... 🤔
cách mà chúng tôi đến đây là suy nghĩ về kích thước "chương trình" nào có thể dạy LLaMA hoặc Qwen lý luận. 3 triệu tham số trong bf16 chiếm 6 MB. điều này có vẻ quá lớn?
lý thuyết của chúng tôi: nếu mỗi tập RL truyền khoảng 1 bit, chúng tôi nên có khả năng mã hóa ví dụ như GSM8K trong ít dữ liệu hơn...

và lưu ý rằng điều này *không* hoạt động với SFT. về cơ bản, để giảm thiểu tổn thất hoàn toàn với SFT, bạn phải ghi nhớ tất cả các token đầu ra với độ tin cậy 100%. điều này cần nhiều bit hơn
và do đó, chúng ta cần kích thước cập nhật lớn hơn cho các mô hình SFT để có hiệu suất tốt:
(nhiều hơn về điều này trong Mục 3)

đây không chỉ là một hiện tượng của GSM8K hay bất kỳ mô hình cụ thể nào
trong tất cả các tập dữ liệu mà chúng tôi đã thử (MATH, AIME, Minerva...), chúng tôi có thể phục hồi >90% lợi ích hiệu suất bằng cách đào tạo hàng trăm tham số (trừ AMC, đôi khi yêu cầu hàng nghìn)

Một chi tiết kỹ thuật thú vị là rất khó để thực hiện RL với các hình dạng LoRA khác nhau, vì RL của LLM yêu cầu suy diễn nhanh, điều này đòi hỏi phải có triển khai ở cấp phần cứng (kernels)
Tôi đã giải quyết vấn đề này bằng cách chỉ đơn giản là gộp các trọng số LoRA trong mỗi lần triển khai và sau đó tách chúng ra để đào tạo. Thực ra, điều này không chậm lắm. Có một số chi tiết khác trong bài báo và tôi sẽ chia sẻ mã sớm.
97
Hàng đầu
Thứ hạng
Yêu thích
