(1/N)🚀Hôm nay chúng tôi ra mắt hai cột mốc liên kết chặt chẽ trong loạt Physics of LM: một Phần 4.1 (v2.0) được cải tiến và một Phần 4.2 hoàn toàn mới — cùng nhau tạo thành một tài liệu tham khảo rõ ràng, có thể tái tạo, theo kiểu sách giáo khoa cho nghiên cứu kiến trúc có nguyên tắc. Phần 4.1 giới thiệu một sân chơi tiền huấn luyện tổng hợp — thí nghiệm Galileo của chúng tôi cho LLMs🍎. Phiên bản v2.0 của chúng tôi củng cố nó với Gated DeltaNet (GDN) và sự căn chỉnh nghiêm ngặt hơn, xây dựng một "tháp Pisa" sạch hơn để kiểm tra giới hạn kiến trúc. Phần 4.2 cho thấy những dự đoán tổng hợp này cộng hưởng trong thực tế 🌍 — trên 1–8B / 1T-token tiền huấn luyện — xác nhận những nguyên tắc thiết kế nào thực sự quan trọng. Cùng nhau, các Phần 4.1 và 4.2 mang thế giới tổng hợp và thực tế vào sự đồng thuận bất ngờ 🤝— một bước nữa hướng tới sự hiểu biết khoa học hơn về kiến trúc LLM. Nếu bạn tò mò về: 🧠tại sao một số mô hình suy luận sâu hơn ⚙️ tại sao các mô hình tuyến tính gặp khó khăn trong việc truy xuất 🎶tại sao một máy trộn ngang nhỏ (Canon) lại thay đổi mọi thứ … phiên bản này kết nối tất cả lại với nhau. (Các liên kết ở cuối)