Kira-kira setahun yang lalu saya bergabung dengan HF untuk mengerjakan akselerasi dengan @TheZachMueller saya tahu bagaimana pelatihan terdistribusi bekerja secara teori tetapi memiliki hampir 0 pengalaman. Saya sangat senang memiliki beberapa H100 untuk melakukan eksperimen saya. Saya bergabung dengan prime beberapa bulan yang lalu, salah satu proyek pertama saya adalah memastikan trinity large run dengan Arcee berfungsi dengan baik dan berjalan cepat. Sekarang, saya mulai bekerja untuk memastikan model 800B berjalan dengan lancar di ratusan GPU dan saya secara konsisten memakan sebagian besar kluster penelitian kami. Sedikit self-shill tetapi agak gila bahwa Anda bisa melakukan sesuatu?