Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
С радостью делюсь последней моделью Olmo: Olmo Hybrid. Это модель с уровнями gated delta net (GDN) в соотношении 3:1 с полной внимательностью. Она следует за множеством других разработок, таких как Qwen 3.5 и Kimi Linear. Это невероятное время для выпуска полностью открытой модели, чтобы люди могли изучить, как эти изменения в архитектуре влияют на полный стек.
Лично я многому научился, работая над пост-тренировочной частью. Даже при идентичных данных для предварительного обучения, пост-тренировка совершенно другая! В частности, инструменты OSS для этих новых архитектур действительно ограничены. Новые архитектуры значительно медленнее, чем стандартные трансформеры или популярные модели, такие как DeepSeek MoEs. Это работа, которую мы можем делать вместе, чтобы продолжать продвигать границы эффективных, открытых моделей.
Эта работа была возглавлена @lambdaviking, @tyleraromero и другими. Я сыграл меньшую роль в создании пост-тренировочной работы, это был супер интересный проект!
Я написал блог-пост, который объясняет, почему это важно, и почему гибридные модели не работали несколько лет назад, когда Mamba была супер популярна. Плюс, эта статья является отличной отправной точкой для современной теории масштабирования глубокого обучения / языкового моделирования. Наслаждайтесь и отправляйте отзывы!

@interconnectsai Большая часть вычислительных мощностей для этого проекта была предоставлена @LambdaAPI. Без этого этот Olmo Hybrid не существовал бы, спасибо за поддержку открытого сообщества.
44
Топ
Рейтинг
Избранное
