Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

nanochat hiện đang huấn luyện mô hình khả năng GPT-2 chỉ trong 2 giờ trên một nút 8XH100 (giảm từ ~3 giờ cách đây 1 tháng). Đang tiến gần hơn đến ~tương tác! Một loạt các điều chỉnh và tính năng (fp8) đã được thực hiện nhưng sự khác biệt lớn nhất là việc chuyển đổi tập dữ liệu từ FineWeb-edu sang NVIDIA ClimbMix (công việc tuyệt vời từ NVIDIA!). Tôi đã thử Olmo, FineWeb, DCLM, tất cả đều dẫn đến sự suy giảm, ClimbMix hoạt động rất tốt ngay từ đầu (đến mức tôi hơi nghi ngờ về goodharting, mặc dù đọc tài liệu thì có vẻ ~ổn). Trong tin tức khác, sau khi thử một vài cách tiếp cận để thiết lập mọi thứ, tôi hiện có các AI Agents tự động lặp lại trên nanochat, vì vậy tôi sẽ để nó chạy một thời gian, đi thư giãn một chút và tận hưởng cảm giác sau-agi :). Được hình dung ở đây như một ví dụ: 110 thay đổi đã được thực hiện trong khoảng ~12 giờ qua, đưa tổn thất xác thực từ 0.862415 xuống 0.858039 cho một mô hình d12, mà không tốn thời gian đồng hồ. Đại lý làm việc trên một nhánh tính năng, thử nghiệm ý tưởng, hợp nhất chúng khi chúng hoạt động và lặp lại. Thú vị là, trong khoảng ~2 tuần qua, tôi gần như cảm thấy mình đã lặp lại nhiều hơn về "thiết lập-meta" nơi tôi tối ưu hóa và điều chỉnh các luồng đại lý nhiều hơn cả kho lưu trữ nanochat trực tiếp.

Hàng đầu

Thứ hạng

Yêu thích