Khoảng một năm trước, tôi tham gia HF để làm việc trên accelerate với @TheZachMueller. Tôi biết cách hoạt động của đào tạo phân tán trong lý thuyết nhưng gần như không có kinh nghiệm. Tôi rất phấn khích khi có một vài H100 để thực hiện các thí nghiệm của mình. Tôi tham gia prime vài tháng trước, một trong những dự án đầu tiên của tôi là đảm bảo rằng trinity lớn chạy với Arcee hoạt động tốt và chạy nhanh. Bây giờ, tôi đến nơi làm việc để đảm bảo rằng một mô hình 800B chạy mượt mà trên hàng trăm GPU và tôi liên tục chiếm một phần lớn của cụm nghiên cứu của chúng tôi. Một chút tự khen nhưng thật điên rồ khi bạn có thể chỉ làm mọi thứ?