Vor ungefähr einem Jahr trat ich HF bei, um an accelerate mit @TheZachMueller zu arbeiten. Ich wusste, wie verteiltes Training theoretisch funktioniert, hatte aber fast 0 Erfahrung. Ich war begeistert, ein paar H100s für meine Experimente zu haben. Ich trat vor ein paar Monaten bei prime ein, eines meiner ersten Projekte war sicherzustellen, dass Trinity großartig mit Arcee funktioniert und schnell läuft. Jetzt gehe ich zur Arbeit, um sicherzustellen, dass ein 800B-Modell reibungslos über Hunderte von GPUs läuft, und ich nutze konsequent einen großen Teil unseres Forschungsclusters. Ein bisschen Eigenwerbung, aber es ist irgendwie verrückt, dass man einfach Dinge tun kann?