Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nghiên cứu thú vị từ Meta về xu hướng mở rộng phần cứng.
Nhiều GPU không phải lúc nào cũng có nghĩa là đào tạo nhanh hơn.
Cách tiếp cận mặc định để mở rộng đào tạo LLM ngày nay vẫn là ném thêm phần cứng vào vấn đề. Nhiều bộ tăng tốc, nhiều song song, nhiều tính toán.
Tuy nhiên, có một giới hạn mà hầu hết các nhóm không thấy cho đến khi họ chạm phải nó.
Nghiên cứu mới này cho thấy rằng việc mở rộng tổng số bộ tăng tốc cho đào tạo mô hình lớn nhanh chóng mang lại lợi suất giảm dần, ngay cả với phần cứng tối ưu và các chiến lược song song hóa.
Các nhà nghiên cứu đã thử nghiệm các mô hình Llama-2 (1B đến 70B tham số) trên 8 đến 2.048 GPU trải dài qua phần cứng V100, A100 và H100. Họ đã tìm thấy gì? Khi mở rộng từ 128 đến 2.048 GPU, thông lượng giảm 37,22% trong khi mức tiêu thụ điện năng trên mỗi GPU chỉ giảm 5,87%.
Thủ phạm là chi phí giao tiếp. Ở quy mô lớn, các hoạt động AllGather và ReduceScatter (hai nguyên thủy MPI) trở thành nút thắt cổ chai. Phần lớn giao tiếp trở nên lộ ra, và tính toán không thể che giấu độ trễ nữa.
Một cách ngược lại, các chiến lược song song mô hình (song song tensor và song song pipeline ở mức độ 2-4) mà trước đây được cho là giảm sử dụng phần cứng thực sự trở nên ưu việt hơn ở quy mô lớn. Chúng giảm giao tiếp lộ ra so với song song dữ liệu thuần túy.
Trên phần cứng mới hơn, mức sử dụng trở nên tồi tệ hơn, không tốt hơn. Mức sử dụng FLOPS của mô hình giảm từ 59,67% trên A100 xuống 40,77% trên H100; các chip nhanh hơn làm lộ ra nhiều chi phí giao tiếp hơn.
Tại sao điều này quan trọng: Thêm nhiều GPU cung cấp hiệu suất biên kém cho mỗi đơn vị công suất hoặc giờ GPU bổ sung. Các nhóm mở rộng đến hàng ngàn bộ tăng tốc cần xem xét cẩn thận các chiến lược song song hóa thay vì giả định rằng nhiều phần cứng đồng nghĩa với đào tạo nhanh hơn.

Hàng đầu
Thứ hạng
Yêu thích

