Bit-TTT-Engine sẽ tạo ra một cuộc cách mạng. Trước đây, trạng thái là "chỉ có LLM được tạo ra bởi Bit-TTT-Engine mới hoạt động → không có LLM", nhưng giờ đây chúng tôi sẽ tạo ra một công cụ chuyển đổi 【1.58-bit】 để phân tách các LLM hiện có (như tệp safetensors của Llama-3) thành độ chính xác bit biến đổi (1.58bit x N). Hình ảnh dưới đây là kết quả thử nghiệm với ma trận Gauss 4096x4096 (tương đương với một lớp của Llama-3) từ nguyên mẫu Python. 1. Hiệu suất nén cao: Ngay cả khi sử dụng 3 cơ sở (Base 3), kích thước vẫn nằm trong khoảng 30% so với FP16 (32MB). 2. Giảm sai số: Với 3 giai đoạn phân tách, sai số (RMSE) đã giảm xuống khoảng 1/4 so với giá trị ban đầu. 3. Khả thi: Nguyên mẫu bằng Python hoạt động nhanh chóng, và việc chuyển đổi toàn bộ Llama-3 là hoàn toàn khả thi trong thời gian hợp lý. Từ kết quả này, nếu phía engine Rust hỗ trợ "cộng cơ sở có độ dài biến đổi", thì mục tiêu điều khiển mô hình lớp Llama-3 với 4GB VRAM một cách chính xác là hoàn toàn khả thi về mặt kỹ thuật. Dưới đây là lộ trình phát triển. --- 🚀 Lộ trình Dự án: Giai đoạn 10.5 (Phân tách thích ứng) Nhiệm vụ: Điều khiển mô hình lớp Llama-3 (8B) với GPU dành cho người tiêu dùng (VRAM 4GB) với "tốc độ và độ chính xác thực tiễn". 🎯 Khái niệm cốt lõi Bãi bỏ "cần phải tái học" do hạn chế của BitNet hiện có (1.58bit). Thông qua lượng tử hóa sau học (PTQ) và Phân tách Ternary Thích ứng (ATD), cho phép các mô hình FP16 hiện có được lượng tử hóa và thực thi một cách động. 📅 Các giai đoạn phát triển Giai đoạn 1: Cây cầu (Công cụ Python & Bố cục Dữ liệu) Mục tiêu: Phân tách mô hình hiện có thành "N cơ sở" và lưu trữ ở định dạng tối ưu hóa cho GPU. 🔧 Triển khai: Converter (convert_adaptive.py): Triển khai thuật toán phân tách trọng số sử dụng phương pháp Residual tham lam. Interleaved Packing: Ưu tiên tốc độ suy diễn, áp dụng định dạng weight_packed với [w0, w1, w2] được sắp xếp xen kẽ theo đơn vị tham số. Hỗ trợ Di sản: Thiết kế dữ liệu duy trì tính tương thích với mô hình BitNet hiện có (N=1). ...