Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Мысли/прогнозы по децентрализованному обучению ИИ, 2025.
1. Одно можно сказать точно: мы определенно находимся в другом мире с децентрализованным обучением ИИ, чем 18 месяцев назад. Тогда децентрализованное обучение было невозможным, а сейчас оно уже на рынке и стало отдельной областью.
2. Не обманывайтесь, конечная цель д-обучения — обучить конкурентоспособные, передовые модели на д-сетях. Таким образом, мы только в начале нашего конкурентного пути, но движемся быстро.
3. Теперь существует консенсус, что мы можем предварительно и постфактум обучать модели с многомиллиардными параметрами (в основном LLM, в основном архитектуры трансформеров) на д-сетях. Текущий уровень технологий достигает ~100B, верхняя граница которой видна, но еще не была продемонстрирована.
4. Теперь существует консенсус, что мы можем довольно легко обучать модели с <10B параметрами на д-сетях. Также были конкретные примеры (в основном от @gensynai @PrimeIntellect @NousResearch), где обучались или обучаются модели с 10B, 32B, 40B параметрами. Постобучающая сварм @gensynai работает с моделями до 72B параметров.
5. Инновация @PluralisHQ теперь опровергла "невозможность" масштабируемого предварительного обучения на д-сетях, устранив узкое место неэффективности коммуникации. Однако, сырьевые FLOPs, надежность и проверяемость остаются узкими местами для этих типов сетей — проблемы, которые вполне решаемы, но для их технического разрешения потребуется время. С учетом Протокольного Обучения от Pluralis, я думаю, мы сможем достичь моделей ~100B в течение 6-12 месяцев.
6. Как нам перейти от 100B к 300B параметрам? Я думаю, нам нужно найти способы эффективно и плавно разбивать параметры и поддерживать память отдельных устройств относительно низкой (например, <32GB памяти на устройство). Я думаю, нам нужно достичь 20 EFlops в сети; это означает что-то вроде 10-20K потребительских устройств, работающих в течение 4-6 недель на обучении.
В целом, д-обучение готово стать очень захватывающей областью. Некоторые из его инноваций уже рассматриваются для широких приложений ИИ.
4,2K
Топ
Рейтинг
Избранное