Bài viết mới: miniseries nanochat v1 Cách đúng để nghĩ về LLM là bạn không tối ưu hóa cho một mô hình cụ thể mà cho một gia đình các mô hình được kiểm soát bởi một núm điều chỉnh duy nhất (tính toán mà bạn muốn chi tiêu) để đạt được kết quả tốt hơn một cách liên tục. Điều này cho phép bạn thực hiện khoa học cẩn thận về các quy luật mở rộng và cuối cùng đây là điều mang lại cho bạn sự tự tin rằng khi bạn trả tiền cho "cuộc chạy lớn", việc ngoại suy sẽ hoạt động và tiền của bạn sẽ được chi tiêu hợp lý. Đối với lần phát hành công khai đầu tiên của nanochat, tôi đã tập trung vào quy trình đầu cuối chạy toàn bộ quy trình LLM với tất cả các giai đoạn của nó. Bây giờ, sau khi thực hiện một vài lần chạy trước đó, tôi quay lại để làm rõ một số phần mà tôi đã vội vàng, bắt đầu tất nhiên với việc tiền huấn luyện, điều này vừa nặng về tính toán vừa quan trọng như là nền tảng của trí tuệ và kiến thức trong các mô hình này. Sau khi điều chỉnh một số siêu tham số tại chỗ, tôi đã thử nghiệm một số mô hình cố định ngân sách FLOPs. (Đối với mỗi mục tiêu FLOPs, bạn có thể huấn luyện một mô hình nhỏ trong thời gian dài, hoặc một mô hình lớn trong thời gian ngắn.) Hóa ra nanochat tuân theo các quy luật mở rộng rất tốt, cơ bản là tái tạo các biểu đồ trong tài liệu Chinchilla: Đây chỉ là một phiên bản nhỏ của biểu đồ này từ Chinchilla: Rất quan trọng và khuyến khích, số mũ trên N (các tham số) và D (các token) bằng nhau ở khoảng ~=0.5, vì vậy giống như Chinchilla, chúng tôi có một hằng số (không phụ thuộc vào tính toán) liên kết kích thước mô hình với các chân trời huấn luyện token. Trong Chinchilla, điều này được đo là 20. Trong nanochat, có vẻ như là 8! Khi chúng tôi có thể huấn luyện các mô hình tối ưu về tính toán, tôi đã thử nghiệm một miniseries từ d10 đến d20, đây là kích thước nanochat có thể thực hiện kích thước lô 2**19 ~= 0.5M trên nút 8XH100 mà không cần tích lũy gradient. Chúng tôi có các biểu đồ huấn luyện đẹp, không giao nhau cho mỗi kích thước mô hình. Sau đó, phần thú vị là liên kết miniseries v1 này với miniseries GPT-2 và GPT-3 để chúng tôi biết rằng chúng tôi đang đi đúng hướng. Mất mát xác thực có nhiều vấn đề và không thể so sánh, vì vậy thay vào đó tôi sử dụng điểm số CORE (từ tài liệu DCLM). Tôi đã tính toán nó cho GPT-2 và ước lượng nó cho GPT-3, điều này cho phép chúng tôi cuối cùng đặt nanochat một cách đẹp đẽ và trên cùng một thang đo: Tổng chi phí của miniseries này chỉ khoảng ~$100 (~4 giờ trên 8XH100). Những thí nghiệm này mang lại cho chúng tôi sự tự tin rằng mọi thứ đang hoạt động khá tốt và nếu chúng tôi chi nhiều hơn (vặn núm), chúng tôi sẽ có được các mô hình ngày càng tốt hơn. Tóm lại: chúng tôi có thể huấn luyện các miniseries tối ưu về tính toán và liên kết chúng với GPT-2/3 thông qua các điểm số CORE mục tiêu, nhưng cần có những cải tiến hơn nữa. Ví dụ, việc khớp với GPT-2 hiện tại cần khoảng ~$500, nhưng theo ý kiến của tôi, nên có thể thực hiện dưới $100 với nhiều công việc hơn. Bài viết đầy đủ với nhiều chi tiết hơn ở đây: Và tất cả các điều chỉnh và mã đã được đẩy lên master và mọi người có thể tái tạo những điều này với các tập lệnh bash scaling_laws .sh và miniseries .sh.