В этом году происходит множество действительно захватывающих событий в области децентрализованного обучения ИИ. Вот мое мнение о том, почему децентрализованное обучение переходит от "невозможного" к "инвестиционному". 🧵👇
В начале децентрализованное обучение считалось невозможным, учитывая уровень современных протоколов обучения ИИ. Компании получали результаты с помощью высококлассного оборудования в высококлассных дата-центрах — обучение на потребительском оборудовании с медленным потребительским интернетом казалось безумным, и аргументы были технически обоснованными.
Тем не менее, очень быстро децентрализованное обучение было продемонстрировано на примере. Алгоритмы с "низкой связью", такие как DiLoCo (разработанный в @GoogleDeepMind), использовались такими компаниями, как @PrimeIntellect, @NousResearch и @tplr_ai для демонстрации моделей, обученных распределенным образом. Эти алгоритмы с параллельной обработкой данных хранят всю модель в памяти узла и разбивают данные. В октябре прошлого года @Pluralis продемонстрировала первый *модельно-параллельный* запуск, который может разбить трансформер на его фактические слои для обучения.
Многие люди в традиционном мире ИИ, от @jackclarkSF (соучредитель @AnthropicAI) до @beffjezos и исследовательских некоммерческих организаций в области ИИ, таких как @EpochAIResearch, обращают внимание на децентрализованное обучение. Epoch вычислил, что вычислительные мощности децентрализованного обучения выросли в 20 раз по сравнению с прошлым годом. Хотя это все еще в 1000 раз меньше, чем централизованные передовые запуски, этот разрыв сокращается в 4 раза быстрее.
181