För ungefär ett år sedan började jag på HF för att arbeta med Accelerate med @TheZachMueller jag visste hur distribuerad utbildning fungerar i teorin men hade nästan ingen erfarenhet. Jag var superglad att ha några H100 för att göra mina experiment. Jag började på Prime för några månader sedan, ett av mina första projekt var att se till att Trinity Large Run med Arcee fungerar bra och går snabbt. Nu går jag till jobbet för att se till att en 800B-modell fungerar smidigt över hundratals GPU:er och jag tar konsekvent en stor del av vårt forskningskluster. Lite av en självreklam men det är lite galet att man bara kan göra saker?