Přibližně před rokem jsem nastoupil do HF, abych pracoval na Accelerate s @TheZachMueller teoreticky jsem věděl, jak funguje distribuované školení, ale měl jsem téměř nulové zkušenosti. Byl jsem nadšený, že mám pár H100 na své experimenty. Přidal jsem se k Prime před pár měsíci, jedním z mých prvních projektů bylo zajistit, aby Trinity Large Run s Arcee fungoval dobře a běžel rychle. Teď chodím do práce, abych zajistil, že model 800B běží hladce na stovkách GPU, a pravidelně spotřebovávám velkou část našeho výzkumného clusteru. Trochu se sám sebe hářím, ale je to trochu šílené, že můžeš prostě dělat věci?