Có rất nhiều phát triển thú vị đang diễn ra trong việc đào tạo AI phi tập trung năm nay. Đây là quan điểm của tôi về lý do tại sao việc đào tạo phi tập trung đang chuyển từ "không thể" sang "có thể đầu tư". 🧵👇
Ban đầu, việc đào tạo phi tập trung được coi là không thể do tình trạng của các giao thức đào tạo AI hiện tại. Các công ty đã đạt được kết quả từ phần cứng cao cấp trong các trung tâm dữ liệu cao cấp -- việc đào tạo trên phần cứng tiêu dùng với internet tiêu dùng chậm dường như là điều điên rồ, và lập luận này được đưa ra một cách hợp lý về mặt kỹ thuật.
Tuy nhiên, rất nhanh chóng, việc đào tạo phi tập trung đã được chứng minh bằng ví dụ. Các thuật toán "giao tiếp thấp" như DiLoCo (được phát triển tại @GoogleDeepMind) đã được các công ty như @PrimeIntellect, @NousResearch và @tplr_ai sử dụng để chứng minh các mô hình được đào tạo theo cách phân tán. Các thuật toán song song dữ liệu này giữ toàn bộ mô hình trong bộ nhớ của nút và phân chia dữ liệu. Vào tháng 10 năm ngoái, @Pluralis đã chứng minh lần chạy *song song mô hình* đầu tiên, có thể phân chia một transformer thành các lớp thực tế của nó để đào tạo.
Nhiều người trong thế giới AI truyền thống từ @jackclarkSF (đồng sáng lập @AnthropicAI) đến @beffjezos và các tổ chức phi lợi nhuận nghiên cứu AI như @EpochAIResearch đang chú ý đến việc đào tạo phi tập trung. Epoch đã tính toán rằng khả năng tính toán cho đào tạo phi tập trung đã tăng trưởng 20 lần mỗi năm. Mặc dù vẫn nhỏ hơn 1000 lần so với các hoạt động trung tâm tiên tiến, nhưng nó đang thu hẹp khoảng cách với tốc độ 4 lần.
184