Suy diễn LLM là một vấn đề trị giá hàng tỷ đô la. Bài báo mới của chúng tôi giới thiệu một thuật toán SOTA trong việc lấy mẫu suy đoán đa bản, Global Resolution, giúp giải quyết đáng kể vấn đề này. Giải thích bên dưới 🧵👇
Một phương pháp để suy diễn hiệu quả được gọi là lấy mẫu suy đoán. Phương pháp này sử dụng một mô hình ‘dự thảo’ rẻ tiền để tạo ra các ‘dự đoán’ về những gì mô hình lớn hơn, mục tiêu sẽ xuất ra.
Bằng cách khai thác hiệu quả song song của các GPU hiện đại, điều này có thể giảm số lần truyền tiến của mô hình mục tiêu xuống hơn 5 lần.
Việc lấy mẫu suy đoán có thể được tổng quát hóa để tiếp nhận nhiều dự đoán từ nhiều mô hình nháp khác nhau. Nhưng không rõ thuật toán tốt nhất để kết hợp những dự đoán này là gì.
Trong trường hợp một bước, các công trình trước đây đã chỉ ra rằng giải pháp tối ưu có thể được tìm thấy bằng cách giải một chương trình tuyến tính vận chuyển tối ưu, OTLP.
Tuy nhiên, OTLP rất khó để giải quyết gần chính xác khi nó tăng trưởng theo cấp số nhân về kích thước từ vựng. Vậy làm thế nào chúng ta có thể giải quyết nó?
Chìa khóa là khai thác cấu trúc bổ sung trong việc xây dựng cây nháp.
Công việc trước đây [Hu et. al.] đã chỉ ra rằng khi cây dự thảo được hình thành bằng cách lấy mẫu i.i.d., bằng cách đối xứng hóa OTLP, giá trị mục tiêu tối ưu có thể được tính toán trong thời gian gần như tuyến tính thông qua việc tối thiểu hóa hàm con.
Tuy nhiên, cho đến khi công việc của chúng tôi được thực hiện, không có phương pháp nào có thể giải quyết được bài toán đạt được giá trị mục tiêu tối ưu này. Thiếu mảnh ghép này, tất cả các công việc trước đây chỉ cho chúng ta biết hiệu suất khối, tốc độ tối đa lý thuyết. Nó không cho chúng ta biết cách đạt được tốc độ này.
Công việc của chúng tôi là công trình đầu tiên giảm đáng kể độ chiều của OTLP, sử dụng ba hiểu biết.
Chúng tôi đảo ngược việc phân đôi của OTLP trong công trình trước đây [Hu et. al.] với sự lỏng lẻo bổ sung, để hình thành OTLP như một bài toán khả thi về dòng chảy.
Nhiều ràng buộc bất bình đẳng dòng là dư thừa. Sử dụng một thuật toán tham lam từ lý thuyết polymatroid, chúng ta có thể hợp nhất những điều này.
Vấn đề dòng chảy giảm này có một giải pháp có thể được tham số hóa như softmax của một vector có chiều thấp, và vector này có thể được tính toán thông qua tối thiểu hóa lồi. Điều này giảm OTLP trong V^{n+1} biến thành một bài toán tối thiểu hóa lồi trong V biến.
V vẫn có thể khá lớn, tuy nhiên, trong bài báo của chúng tôi, chúng tôi áp dụng các xấp xỉ thêm với tỷ lệ lỗi mô hình mục tiêu giới hạn để giảm thêm thời gian tính toán.
Trong nhiều trường hợp với V bị giới hạn ở top-k và n mô hình dự thảo, như đã trình bày ở trên, Global Resolution là bộ giải _duy nhất_ có khả năng giải quyết OTLP trong thời gian hợp lý.
Hơn nữa, việc sử dụng Global Resolution, chúng ta có thể cải thiện tỷ lệ chấp nhận trên Llama và Gemma lên tới 6%: Tóm lại, Global Resolution là SOTA cho xác minh đa bản tối ưu trong giải mã suy đoán.
Vẫn còn nhiều việc phải làm ở đây, bằng cách nới lỏng cài đặt iid, hoặc bằng cách mở rộng ra nhiều bước.
5,82K