andrej karpathy đã để laptop của mình chạy trong hai ngày..trở lại và đại diện của anh ấy đã thực hiện ~700 thí nghiệm và tìm thấy ~20 cải tiến mà anh ấy đã bỏ lỡ nó được chỉ định cho nanochat, một mô hình kiểu gpt nhỏ mà anh ấy đã điều chỉnh bằng tay..karpathy nói rằng đại diện đã giảm "thời gian đến gpt 2" khoảng ~11%, và những cải tiến đã chuyển từ mô hình nhỏ sang các mô hình lớn hơn cơ chế thực sự khá nhàm chán: chạy huấn luyện cố định 5 phút, đánh giá theo một chỉ số, giữ lại những gì cải thiện, quay lại những gì không, lặp lại..~12 thí nghiệm/giờ có nghĩa là bạn thức dậy với ~100 nỗ lực mà bạn không tự thực hiện Tobi Lütke đã thử ý tưởng tương tự trên mã nguồn liquid của shopify và báo cáo nhanh hơn ~53% với 61% ít cấp phát đối tượng hơn (với một caveat rằng nó có thể bị overfit)..nhưng những ý tưởng vẫn hữu ích - ngay cả trong một dự án 20 năm, đã được tối ưu hóa nặng nề chúng tôi vừa tự động hóa phần chậm nhất của kỹ thuật và nghiên cứu..lặp đi lặp lại không ngừng bạn viết tệp .md..đại diện viết tệp .py 👀