Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

steve hsu

Nhà vật lý, Người sáng lập AI, Manifold Podcast

Giả thuyết về Không gian Trọng số Toàn cầu Những phát hiện của chúng tôi cung cấp cái nhìn mới về tổ chức nội tại của thông tin trong các mạng sâu và đặt ra những câu hỏi quan trọng về khả năng khám phá những không gian toàn cầu này mà không cần đến dữ liệu và tài nguyên tính toán lớn. ... bằng cách thực hiện phân tích phổ theo từng lớp và chỉ giữ lại các hướng chính dẫn đầu, một sự xấp xỉ chính xác của những không gian toàn cầu này có thể được trích xuất. Thực nghiệm cho thấy hành vi này xuất hiện rộng rãi: trong các mô hình đã được tinh chỉnh hoàn toàn và các bộ điều hợp dựa trên LoRA, trong các mô hình được đào tạo từ đầu, trong cả hai cài đặt sinh và phân biệt, và trong các cấu hình đa phương thức. Hơn nữa, các không gian xấp xỉ tổng quát cho các nhiệm vụ ngoài phân phối, nơi việc chiếu các mô hình và chỉ học một tập hợp nhỏ các hệ số là đủ để phục hồi hiệu suất mạnh mẽ. Điều này cho phép thích ứng với các nhiệm vụ mới mà không cần đào tạo lại hoặc lưu trữ trọng số đầy đủ, và hỗ trợ học đa nhiệm mạnh mẽ, tinh chỉnh quy mô và hợp nhất mô hình có nguyên tắc trong một khung thống nhất duy nhất. Các tác động thực tiễn là đáng kể. Bằng cách tái sử dụng một tập hợp chung các hướng chính theo từng lớp và chỉ học các hệ số nhẹ cho mỗi nhiệm vụ, các mô hình lớn có thể được mở rộng và phục vụ với chi phí tính toán, bộ nhớ và kỹ thuật giảm đáng kể. ... chúng tôi có thể hiệu quả tái chế và thay thế các mô hình đã được đào tạo trước có sẵn bằng một mô hình không gian toàn cầu với mỗi cá nhân được đại diện bởi một tập hợp thưa thớt các hệ số. Trong phần này, chúng tôi trình bày một loạt các thí nghiệm mà chúng tôi sử dụng các không gian toàn cầu để học các nhiệm vụ mới bằng cách đóng băng các thành phần và chỉ học các hệ số bằng cách sử dụng phương pháp giảm dần độ dốc. Chúng tôi nhận thấy rằng vì chúng tôi chỉ học các hệ số, điều này giảm đáng kể số lượng tham số cần thiết để đào tạo các mô hình mới. Hơn nữa, vì các hệ số này chỉ là các giá trị tỷ lệ tuyến tính, quá trình tối ưu hóa trở nên mượt mà và nhanh hơn.

Hàng đầu

Thứ hạng

Yêu thích