Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Ми представляємо попередній огляд дослідження Self-Flow: масштабований підхід до навчання мультимодальних генеративних моделей. Мультимодальна генерація вимагає наскрізного навчання на різних модальнях: зображення, відео, аудіо, текст — без обмежень зовнішніми моделями для навчання представлення. Self-Flow вирішує це за допомогою самоконтрольованого підбору потоків, що ефективно масштабується між різними модальностями. Результати: • До 2,8 разів швидша збіжність між модальностями. • Покращена часова послідовність у відео • Більш чітке відтворення тексту та типографіка Це фундаментальне дослідження на шляху до мультимодального візуального інтелекту.

Self-Flow покращує часову послідовність у генерації відео. Мультимодальна модель з параметрами 4B, навчена на 6M-відео.

Чистіша типографіка та рендеринг тексту. Мультимодальна модель з параметром 4B, навчена на 200M зображеннях.

Спільне відео-аудіо генерування з однієї моделі (звук увімкнено) Мультимодальна модель з параметрами 4B, навчена на 2M парах аудіо-відео.

Self-Flow відкриває шлях до моделей світу: поєднання візуальної масштабованості з семантичною абстракцією для планування та розуміння. Ось прогноз дій за моделлю параметрів 675M.

Найкращі

Рейтинг

Вибране