Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Alexander Long
Người sáng lập @PluralisHQ | Tiến sĩ ML
Học giao thức: Mô hình song song nhiều người tham gia, băng thông thấp
Điều này thật điên rồ.

Pluralis Research21 giờ trước
Kết quả NeurIPS đã được công bố; Pluralis có ba bài báo được chấp nhận. Bài đầu tiên là kết quả nghiên cứu cốt lõi hiện đang hỗ trợ cho quá trình tiền huấn luyện mở 7.5B node0 của chúng tôi. Hai bài còn lại cũng là những kết quả quan trọng mà chúng tôi sẽ tích hợp vào các lần chạy tiếp theo. Điều này được thực hiện với một đội ngũ nhỏ dưới 10 người, trong khi xây dựng node0.
1) Mạng con không gian: Mở rộng đào tạo phi tập trung với mô hình song song hiệu quả giao tiếp: Việc mở rộng các mô hình đã dẫn đến những tiến bộ đáng kể trong học sâu, nhưng việc đào tạo những mô hình này trong các thiết lập phi tập trung vẫn gặp khó khăn do các nút thắt giao tiếp. Trong khi các kỹ thuật nén hiện có hiệu quả trong đào tạo song song dữ liệu, chúng không mở rộng cho mô hình song song. Khác với đào tạo song song dữ liệu, nơi mà các gradient trọng số được trao đổi, mô hình song song yêu cầu nén các hoạt động và gradient hoạt động khi chúng lan truyền qua các lớp, tích lũy các lỗi nén. Chúng tôi đề xuất một thuật toán nén mới nén cả các bước đi tới và lùi, cho phép nén lên tới 99% mà không làm giảm độ hội tụ với chi phí bộ nhớ/tính toán không đáng kể. Bằng cách tận dụng cấu trúc đệ quy trong các mạng transformer, chúng tôi định nghĩa trước một không gian con có kích thước thấp để giới hạn các hoạt động và gradient, cho phép tái tạo hoàn toàn trong các lớp tiếp theo. Phương pháp của chúng tôi đạt được cải thiện lên tới 100 lần về hiệu quả giao tiếp và cho phép đào tạo các mô hình quy mô tỷ trọng số trên các GPU cấp thấp được kết nối qua tốc độ internet tiêu dùng thấp tới 80Mbps, tương đương với độ hội tụ của các hệ thống trung tâm dữ liệu tập trung với kết nối 100Gbps với mô hình song song.
2) Hỗn hợp không gian cho đào tạo song song ngữ cảnh hiệu quả băng thông: Tiền huấn luyện các mô hình ngôn ngữ với các cửa sổ ngữ cảnh mở rộng nâng cao khả năng tận dụng thông tin phong phú trong quá trình sinh. Các phương pháp hiện có chia các chuỗi đầu vào thành các khối, phát sóng chúng qua nhiều thiết bị và tính toán attention theo từng khối, điều này gây ra chi phí giao tiếp đáng kể. Trong khi khả thi trong các cụm tốc độ cao, những phương pháp này không thực tế cho đào tạo phi tập trung qua các kết nối băng thông thấp. Chúng tôi đề xuất một phương pháp nén cho tính song song ngữ cảnh hiệu quả giao tiếp trong các thiết lập phi tập trung, đạt được tỷ lệ nén đáng kể trên 95% với chi phí không đáng kể và không mất mát trong độ hội tụ. Nhận thức chính của chúng tôi là khai thác cấu trúc hạng thấp nội tại của các đầu ra hoạt động bằng cách ràng buộc chúng một cách động vào các hỗn hợp không gian đã học thông qua các tái tham số hóa hiệu quả. Chúng tôi chứng minh khả năng mở rộng các mô hình phi tập trung tỷ trọng số lên đến độ dài ngữ cảnh vượt quá 100K token trên các mạng chậm tới 300Mbps, tương đương với tốc độ hội tụ theo thời gian của các mô hình tập trung trên các kết nối 100Gbps.
3) Mô hình giao thức không thể trích xuất: Đào tạo và suy diễn hợp tác mà không cần hiện thực hóa trọng số: Chúng tôi xem xét một thiết lập đào tạo phi tập trung trong đó các người tham gia hợp tác đào tạo và phục vụ một mạng nơ-ron lớn, và nơi mà mỗi người tham gia chỉ xử lý một tập hợp con của mô hình. Trong thiết lập này, chúng tôi khám phá khả năng của các trọng số không thể hiện thực hóa, nơi mà một tập hợp trọng số đầy đủ không bao giờ có sẵn cho bất kỳ người tham gia nào. Chúng tôi giới thiệu Mô hình Giao thức Không thể Trích xuất (UPMs): một khung đào tạo và suy diễn tận dụng thiết lập mô hình phân mảnh để đảm bảo các mảnh mô hình (tức là, các tập hợp con) do các người tham gia nắm giữ không tương thích ở các bước thời gian khác nhau. UPMs định kỳ tiêm các biến đổi ngẫu nhiên, có thể đảo ngược theo thời gian tại các ranh giới người tham gia; bảo tồn chức năng tổng thể của mạng nhưng làm cho các tập hợp theo thời gian không nhất quán. Trên Qwen-2.5-0.5B và Llama-3.2-1B, 10 000 biến đổi không làm thay đổi độ phức tạp FP 32 (PPL Jensen–Shannon drift). Việc áp dụng một biến đổi mỗi 30 giây thêm 3% độ trễ, 0.1% băng thông, và 10% chi phí bộ nhớ GPU trong suy diễn, trong khi chi phí đào tạo giảm xuống còn 1.6% thời gian và < 1% bộ nhớ. Chúng tôi xem xét một số cuộc tấn công, cho thấy rằng các yêu cầu của các cuộc tấn công trực tiếp là không thực tế và dễ dàng để phòng thủ, và rằng việc tinh chỉnh dựa trên gradient của các phân đoạn ghép lại tiêu tốn các token cần thiết để đào tạo từ đầu. Bằng cách cho phép các mô hình được đào tạo hợp tác nhưng không thể trích xuất, UPMs làm cho việc nhúng các cơ chế khuyến khích lập trình trong đào tạo phi tập trung do cộng đồng điều khiển trở nên thực tế.
12
Hàng đầu
Thứ hạng
Yêu thích