Приблизно рік тому я приєднався до HF, щоб працювати над accelerate з @TheZachMueller теоретично знав, як працює розподілене навчання, але майже не мав досвіду. Я був у захваті, що мав кілька H100 для експериментів. Я приєднався до Prime кілька місяців тому, одним із моїх перших проєктів було переконатися, що trinity large працює з Arcee добре і швидко. Зараз я працюю, щоб переконатися, що модель 800B працює плавно на сотнях GPU, і постійно займаю значну частину нашого дослідницького кластера. Трохи самореклама, але це трохи дивно, що можна просто щось робити?