Ongeveer een jaar geleden ben ik bij HF begonnen om aan accelerate te werken met @TheZachMueller. Ik wist hoe gedistribueerde training in theorie werkt, maar had bijna 0 ervaring. Ik was enthousiast om een paar H100's te hebben om mijn experimenten uit te voeren. Ik ben een paar maanden geleden bij prime gekomen, een van mijn eerste projecten was ervoor te zorgen dat trinity groot draait met Arcee en snel werkt. Nu ga ik aan het werk om ervoor te zorgen dat een 800B-model soepel draait op honderden GPU's en ik verbruik consequent een groot deel van onze onderzoekscluster. Een beetje zelfpromotie, maar het is best gek dat je gewoon dingen kunt doen?