Około rok temu dołączyłem do HF, aby pracować nad przyspieszeniem z @TheZachMueller. Wiedziałem, jak działa rozproszone uczenie w teorii, ale miałem prawie zerowe doświadczenie. Byłem podekscytowany, że mogę mieć kilka H100 do moich eksperymentów. Dołączyłem do prime kilka miesięcy temu, a jednym z moich pierwszych projektów było upewnienie się, że duże uruchomienie trinity z Arcee działa dobrze i szybko. Teraz idę do pracy, aby upewnić się, że model 800B działa płynnie na setkach GPU i konsekwentnie zajmuję dużą część naszego klastra badawczego. Trochę autopromocji, ale to trochę szalone, że można po prostu robić rzeczy?