Trong 6 tháng qua, tốc độ NanoGPT Speedrun đến mức lỗ 3.28 trên FineWeb đã giảm 33% xuống còn 2 phút. Gần đây, một tập hợp con của những thay đổi này đã được sao chép và dán hàng loạt vào đường đua lỗ 2.92 quy mô lớn hơn. Thật bất ngờ, lần chạy yolo chưa được điều chỉnh đã phá vỡ kỷ lục lỗ 2.92 với 25%.
HC sử dụng các phép chiếu phân tích Kronecker xuống&lên, nhưng nó cần một phép trộn H^res.
mHC chiến lược yêu cầu H^res phải là các ma trận doubly stochastic, đây là một phép đóng đối với matmul.
(có thể orthogonal cũng hoạt động)
LatentMoE sử dụng các ma trận đầy đủ cho các phép chiếu xuống&lên.
Thú vị. HyperConnection và LatentMoE thực sự đang làm những điều tương tự.
ảnh chụp màn hình từ bài báo mới của deepseek (được tải lên bởi Liang)
cc @teortaxesTex
Thú vị. HyperConnection và LatentMoE thực sự đang làm những điều tương tự.
ảnh chụp màn hình từ bài báo mới của deepseek (được tải lên bởi Liang)
cc @teortaxesTex