Một người nào đó trên r/LocalLLaMA đã huấn luyện một LLM từ đầu trên các văn bản London từ năm 1800 đến 1875 Đồ tạo tác thú vị > "điện thoại" được phát minh vào năm 1876 > tập dữ liệu dừng lại ở năm 1875 > vì vậy khi bạn gợi ý "điện thoại" > mô hình coi nó như > một thiết bị ngoại giao bí mật > hoặc một thiết bị bí ẩn Mô hình & Dữ liệu > 1.2B tham số > ~90GB tập hợp dữ liệu > sách, tạp chí, tài liệu pháp lý > văn viết tôn giáo, bài báo y tế Bộ phân tách > bộ phân tách tùy chỉnh > được huấn luyện trên cùng một tập dữ liệu Huấn luyện > ~182k bước huấn luyện > được huấn luyện trên một H100 SXM thuê