Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Я решительно осуждаю критику Prime Intellect, они делают абсолютно правильные вещи.
Пост-тренировочные китайские базовые модели на уровне передовых технологий сейчас *важнее*, чем обучение предобучению наших собственных баз. Мне в принципе все равно, что PI, Arcee и другие могут предобучить, хотя у меня есть разумные ожидания, что они скоро догонят. Вычислительные ресурсы в Западном мире изобилуют, и мы уже видим доказательства достаточной экспертизы в предобучении с меньшими моделями (эти две + @ZyphraAI, @Dorialexander, @natolambert с Olmo…) в открытом пространстве Запада; по всем показателям это масштабируется. Но это в основном имеет… геополитическое значение, касающееся того, что вам разрешат запускать на ваших патриотических серверах, подключенных к агентным структурам. Я не западный и не китайский, и в отличие от моих публикаций, мне не важен этот аспект, это чисто инструментальная проблема. Обратитесь к биографии: гонка идет не между США/Западом и Китаем, а между людьми и ИИ против централизации власти обезьян. И Prime Intellect делает больше, чем кто-либо другой, чтобы остановить централизацию.
Подумайте и плачьте: HF полон небесных даров, которые мы слишком неумелы, чтобы использовать, они просто гниют там, пока не станут устаревшими. Тысячи до миллионов загрузок и ничего на выходе. Почему Qwen вообще занимается устаревшими, очень дорогими моделями, похожими на Llama? В основном потому, что a) Alibaba имеет KPI "ежемесячные загрузки HF" и b) академики и небольшие лаборатории не могут разобраться, как дообучить современные архитектуры. Даже если бы инфраструктура была более зрелой и они менее технически некомпетентны, на чем бы они дообучали? Пиковая нарративная точка открытого исходного кода дообучения была Nous-Hermes, и эта парадигма в основном заключалась в дистилляции GPT-4, фильтрации по "вкусу" и размытым критериям, SFT над сильной базой и надежде на лучшее. Этот подход был презрительно отвергнут заранее OpenAI и другими как неугрожающее тупиковое направление, которое вознаграждает галлюцинации и подражание стилю, и предсказуемо выдохся. Что дальше, «RL»? Какой RL, как RL, что является генератором сигналов, как это пересекается с последующими задачами? Kimi-K2, безупречная базовая модель на уровне передовых технологий, доступна всем уже много месяцев. DeepSeek-V3, почти год. V2, более года. Десятки моделей всех размеров, периодически обновляемых с более длинным контекстом и другими преимуществами. И что мы построили с этим всем?
Что-то, что даже приближается к китайским внутренним инструкциям, не говоря уже о современных передовых технологиях? Здравствуйте? Можете указать мне на эти производные? Это полное осквернение идеи открытой науки. И даже китайцы не утруждают себя, они все просто обучают свои собственные модели с нуля. Я могу вспомнить лишь небольшое количество исключений (например, Rednote, создающий DSV3-VL), но ни одно из них не произвело большого впечатления. Стартапы стоимостью миллиарды, чья защита — это поиск или агентное кодирование и, следовательно, большие наборы данных после обучения, тайно используют DS/GLM/Qwen в своих собственных продуктах, но они не делятся альфа-версией. Вот и все.
Вступает Prime Intellect. Они решают проблемы обучения. Они решают проблемы генерации среды. Они мыслят принципиально о сигналах, которые формируют общее восприятие модели. Они, по сути, разблокируют огромный запас инертной ценности, который был накоплен. Для мира это гораздо больше, чем еще одна модель «я тоже». Они пугающе умны, у них хорошие намерения, у них есть четкий план, и они мои друзья. Я не потерплю пренебрежительного отношения к их работе, потому что она служит Великой Общей Задаче. Если вы этого не видите, вы не понимаете, что действительно важно на этом этапе.
Топ
Рейтинг
Избранное

