Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
nanochat hiện đang huấn luyện mô hình khả năng GPT-2 chỉ trong 2 giờ trên một nút 8XH100 (giảm từ ~3 giờ cách đây 1 tháng). Đang tiến gần hơn đến ~tương tác! Một loạt các điều chỉnh và tính năng (fp8) đã được thực hiện nhưng sự khác biệt lớn nhất là việc chuyển đổi tập dữ liệu từ FineWeb-edu sang NVIDIA ClimbMix (công việc tuyệt vời từ NVIDIA!). Tôi đã thử Olmo, FineWeb, DCLM, tất cả đều dẫn đến sự suy giảm, ClimbMix hoạt động rất tốt ngay từ đầu (đến mức tôi hơi nghi ngờ về goodharting, mặc dù đọc tài liệu thì có vẻ ~ổn).
Trong tin tức khác, sau khi thử một vài cách tiếp cận để thiết lập mọi thứ, tôi hiện có các AI Agents tự động lặp lại trên nanochat, vì vậy tôi sẽ để nó chạy một thời gian, đi thư giãn một chút và tận hưởng cảm giác sau-agi :). Được hình dung ở đây như một ví dụ: 110 thay đổi đã được thực hiện trong khoảng ~12 giờ qua, đưa tổn thất xác thực từ 0.862415 xuống 0.858039 cho một mô hình d12, mà không tốn thời gian đồng hồ. Đại lý làm việc trên một nhánh tính năng, thử nghiệm ý tưởng, hợp nhất chúng khi chúng hoạt động và lặp lại. Thú vị là, trong khoảng ~2 tuần qua, tôi gần như cảm thấy mình đã lặp lại nhiều hơn về "thiết lập-meta" nơi tôi tối ưu hóa và điều chỉnh các luồng đại lý nhiều hơn cả kho lưu trữ nanochat trực tiếp.

Hàng đầu
Thứ hạng
Yêu thích
