NVIDIA vừa phát hành một tài liệu có thể giải quyết sự đánh đổi lớn nhất trong các mô hình ngôn ngữ lớn (LLMs). Tốc độ so với Chất lượng. Các mô hình tự hồi quy (như GPT) thông minh nhưng chậm - chúng tạo ra một token tại một thời điểm, để lại phần lớn GPU của bạn không hoạt động. Các mô hình khuếch tán nhanh nhưng thường sản xuất đầu ra không nhất quán. TiDAR mang đến cả hai trong một lần truyền. Đây là phần thông minh: Các GPU hiện đại có thể xử lý nhiều token hơn nhiều so với những gì chúng ta thực sự sử dụng. TiDAR khai thác những "khoảng trống" này bằng cách: 1. Soạn thảo nhiều token cùng một lúc bằng cách sử dụng khuếch tán (giai đoạn "suy nghĩ") 2. Xác minh chúng bằng cách sử dụng tự hồi quy (giai đoạn "nói") Cả hai đều diễn ra đồng thời bằng cách sử dụng các mặt nạ chú ý thông minh - hai chiều cho việc soạn thảo, nguyên nhân cho việc xác minh. Kết quả: ↳ Nhanh hơn 4.71 lần với 1.5B tham số mà không mất chất lượng ↳ Nhanh hơn gần 6 lần với 8B tham số ↳ Kiến trúc đầu tiên vượt qua giải mã suy đoán (EAGLE-3) ↳ Hoạt động với bộ nhớ KV tiêu chuẩn, không giống như các mô hình khuếch tán thuần túy Mẹo huấn luyện cũng thông minh - thay vì che giấu ngẫu nhiên các token, họ che giấu mọi thứ. Điều này cung cấp tín hiệu học tập mạnh mẽ hơn và cho phép soạn thảo một bước hiệu quả. Nếu bạn đang xây dựng các tác nhân AI thời gian thực mà độ trễ làm hỏng trải nghiệm, kiến trúc này đáng để chú ý. ...