Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Мы представляем предварительный обзор исследования Self-Flow: масштабируемый подход к обучению многомодальных генеративных моделей.
Многомодальная генерация требует обучения от начала до конца через модальности: изображение, видео, аудио, текст - без ограничений внешними моделями для обучения представлениям. Self-Flow решает эту задачу с помощью самонаправленного сопоставления потоков, которое эффективно масштабируется через модальности.
Результаты:
• Ускорение сходимости до 2,8x через модальности.
• Улучшенная временная согласованность в видео
• Четче рендеринг текста и типографика
Это основополагающее исследование для нашего пути к многомодальному визуальному интеллекту.

Self-Flow улучшает временную согласованность в генерации видео.
Мультимодальная модель с 4 миллиардами параметров, обученная на 6 миллионах видео.
Чище типографика и рендеринг текста.
Многофункциональная модель с параметрами 4B, обученная на 200M изображениях.


Совместная генерация видео и аудио из одной модели (звук включен)
Мульти-модальная модель с 4B параметрами, обученная на 2M парах аудио-видео.
Self-Flow открывает путь к мировым моделям: сочетая визуальную масштабируемость с семантической абстракцией для планирования и понимания.
Вот предсказание действий от модели с 675M параметрами.
84
Топ
Рейтинг
Избранное
