Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

steve hsu
Nhà vật lý, Người sáng lập AI, Manifold Podcast
Giả thuyết về Không gian Trọng số Toàn cầu
Những phát hiện của chúng tôi cung cấp cái nhìn mới về tổ chức nội tại của thông tin trong các mạng sâu và đặt ra những câu hỏi quan trọng về khả năng khám phá những không gian toàn cầu này mà không cần đến dữ liệu và tài nguyên tính toán lớn.
... bằng cách thực hiện phân tích phổ theo từng lớp và chỉ giữ lại các hướng chính dẫn đầu, một sự xấp xỉ chính xác của những không gian toàn cầu này có thể được trích xuất. Thực nghiệm cho thấy hành vi này xuất hiện rộng rãi: trong các mô hình đã được tinh chỉnh hoàn toàn và các bộ điều hợp dựa trên LoRA, trong các mô hình được đào tạo từ đầu, trong cả hai cài đặt sinh và phân biệt, và trong các cấu hình đa phương thức. Hơn nữa, các không gian xấp xỉ tổng quát cho các nhiệm vụ ngoài phân phối, nơi việc chiếu các mô hình và chỉ học một tập hợp nhỏ các hệ số là đủ để phục hồi hiệu suất mạnh mẽ. Điều này cho phép thích ứng với các nhiệm vụ mới mà không cần đào tạo lại hoặc lưu trữ trọng số đầy đủ, và hỗ trợ học đa nhiệm mạnh mẽ, tinh chỉnh quy mô và hợp nhất mô hình có nguyên tắc trong một khung thống nhất duy nhất.
Các tác động thực tiễn là đáng kể. Bằng cách tái sử dụng một tập hợp chung các hướng chính theo từng lớp và chỉ học các hệ số nhẹ cho mỗi nhiệm vụ, các mô hình lớn có thể được mở rộng và phục vụ với chi phí tính toán, bộ nhớ và kỹ thuật giảm đáng kể.
... chúng tôi có thể hiệu quả tái chế và thay thế các mô hình đã được đào tạo trước có sẵn bằng một mô hình không gian toàn cầu với mỗi cá nhân được đại diện bởi một tập hợp thưa thớt các hệ số. Trong phần này, chúng tôi trình bày một loạt các thí nghiệm mà chúng tôi sử dụng các không gian toàn cầu để học các nhiệm vụ mới bằng cách đóng băng các thành phần và chỉ học các hệ số bằng cách sử dụng phương pháp giảm dần độ dốc. Chúng tôi nhận thấy rằng vì chúng tôi chỉ học các hệ số, điều này giảm đáng kể số lượng tham số cần thiết để đào tạo các mô hình mới. Hơn nữa, vì các hệ số này chỉ là các giá trị tỷ lệ tuyến tính, quá trình tối ưu hóa trở nên mượt mà và nhanh hơn.

39
Điều này vừa xuất hiện trên nguồn tin của tôi, khoảng 1 năm trước - trông khá ổn! @davidpgoldman

steve hsu4 thg 2, 2025
Đây là từ bài viết của tôi trên AsiaTimes với @davidpgoldman tuyệt vời
"Những gã tech bros "AGI-pilled" chỉ theo dõi #6. Niềm tin của họ, tin hay không thì tùy, là nền tảng cho chiến lược chiến tranh chip của Mỹ: AGI đang gần kề, việc ngăn chặn tiến bộ của PRC trong #6 là ưu tiên hàng đầu, và việc từ bỏ ngành công nghiệp bán dẫn trong quá trình này là chấp nhận được miễn là chúng ta có thể đạt được AGI nhanh chóng trước.
Rõ ràng là mọi thứ có thể không diễn ra theo cách này. Tôi có thể thấy, từ kinh nghiệm thực tế của một người sáng lập AI, rằng việc ứng dụng AI trong nền kinh tế chung bị giới hạn bởi quyết định của con người, điều này chậm thích ứng với công nghệ mới. Mọi thứ có thể mất nhiều thời gian hơn những gì các gã tech bros 30 tuổi dự đoán ngay cả khi tiến bộ AI diễn ra nhanh chóng.
Hầu hết những người đam mê AI không hiểu thế giới vật lý rất tốt (hóa học, vật lý, kỹ thuật cứng, sinh học, tâm lý học não khỉ) nên họ đánh giá quá cao tốc độ "dịch thuật" (để sử dụng thuật ngữ sinh học) của các đổi mới mới vào thực tiễn. Trong lĩnh vực Nghiên cứu Tiến bộ, điều này thường được gọi là quá trình khuếch tán công nghệ, mà chậm hơn nhiều so với những gì các nhà công nghệ mong đợi.

15
Hàng đầu
Thứ hạng
Yêu thích
