Circa un anno fa sono entrato in HF per lavorare su accelerate con @TheZachMueller. Sapevo come funziona l'addestramento distribuito in teoria, ma avevo quasi 0 esperienza. Ero entusiasta di avere a disposizione alcuni H100 per i miei esperimenti. Sono entrato in prime alcuni mesi fa, uno dei miei primi progetti è stato assicurarmi che il grande run di trinity con Arcee funzionasse bene e andasse veloce. Ora, vado al lavoro per assicurarmi che un modello da 800B funzioni senza intoppi su centinaia di GPU e consumo costantemente una grande parte del nostro cluster di ricerca. Un po' di auto-promozione, ma è un po' pazzesco che tu possa semplicemente fare delle cose?