Tôi luôn nghĩ rằng LLM sẽ hoạt động như thế này vì đây là cách mà tôi (và có lẽ hầu hết mọi người) nghĩ Tôi cho rằng đơn vị cơ bản của suy nghĩ là cái gì đó như vector suy nghĩ gestalt, không phải "từ", và chúng ta chỉ phát triển một cách rất nhanh để chuyển đổi những điều này thành từ vì từ thì dễ giao tiếp hơn những mảnh suy nghĩ Đây luôn là vấn đề của tôi với cuộc tranh luận "một số người không có độc thoại nội tâm!" Nó thật sự không có lý khi cho rằng từ là đơn vị cơ bản mà mọi người suy nghĩ. Nó nhanh hơn gấp 1000 lần để suy nghĩ theo hình ảnh hoặc những mảnh suy nghĩ này hoặc bất cứ điều gì khác Tôi cho rằng có vẻ như mọi người suy nghĩ bằng từ vì khi họ mô tả những gì họ đang nghĩ với người khác, họ phải chuyển đổi những mảnh suy nghĩ thành từ - vì đó là cách chúng ta giao tiếp - và quá trình này chuyển đổi những suy nghĩ thực sự của họ thành hình thức độc thoại Nhưng chỉ có lý khi suy nghĩ bằng từ khi bạn cần phát ra một hình thức giao tiếp nào đó. Nếu không, điều đó không hiệu quả lắm Và bộ não con người thì cực kỳ hiệu quả
Simplifying AI
Simplifying AI00:54 23 thg 3
🚨 CẬP NHẬT: Tencent đã tiêu diệt mô hình "next-token". Tencent và Tsinghua đã phát hành CALM (Mô hình Ngôn ngữ Tự hồi tiếp Liên tục), và nó hoàn toàn làm gián đoạn mô hình next-token. Các LLM hiện tại lãng phí một lượng lớn tài nguyên tính toán để dự đoán các token rời rạc, đơn lẻ thông qua một lớp softmax từ vựng khổng lồ. Nó chậm và không mở rộng tốt. CALM bỏ qua hoàn toàn từ vựng. Nó sử dụng một autoencoder độ chính xác cao để nén các đoạn văn bản thành một vector liên tục duy nhất với độ chính xác tái tạo 99,9%. Mô hình giờ đây dự đoán "vector tiếp theo" trong một không gian liên tục. Các con số thực sự điên rồ: - Mỗi bước sinh ra giờ đây mang lại băng thông ngữ nghĩa gấp 4 lần. - Tài nguyên tính toán cho việc đào tạo giảm 44%. - Nút thắt softmax hoàn toàn bị loại bỏ. Chúng ta đang chứng kiến các mô hình ngôn ngữ tiến hóa từ việc gõ các ký hiệu rời rạc sang việc phát trực tiếp những suy nghĩ liên tục. Điều này thay đổi toàn bộ quỹ đạo của AI.
Tôi chỉ đang bình luận về cơ chế được mô tả ở đây thôi, không phải công nghệ thực tế từ Tencent hay bất cứ thứ gì khác. Tôi cho rằng việc chuyển từ vector sang token sẽ khá chậm và không hiệu quả trong một thời gian dài và tôi nghi ngờ rằng điều này CÁCH MẠNG HÓA AI hay bất cứ điều gì trong ngắn hạn.
289