Chúng tôi giới thiệu một bản nghiên cứu về Self-Flow: một phương pháp có thể mở rộng để đào tạo các mô hình sinh đa phương thức. Việc tạo ra đa phương thức yêu cầu học tập từ đầu đến cuối qua các phương thức: hình ảnh, video, âm thanh, văn bản - mà không bị giới hạn bởi các mô hình bên ngoài cho việc học đại diện. Self-Flow giải quyết điều này với việc khớp dòng tự giám sát có thể mở rộng hiệu quả qua các phương thức. Kết quả: • Tốc độ hội tụ nhanh hơn tới 2.8 lần qua các phương thức. • Cải thiện tính nhất quán tạm thời trong video • Hiển thị văn bản và kiểu chữ sắc nét hơn Đây là nghiên cứu cơ bản cho con đường của chúng tôi hướng tới trí thông minh hình ảnh đa phương thức.
Self-Flow cải thiện tính nhất quán tạm thời trong việc tạo video. Mô hình đa phương thức 4B tham số được đào tạo trên 6 triệu video.
Kiểu chữ và hiển thị văn bản sạch hơn. Mô hình đa phương thức với tham số 4B được đào tạo trên 200 triệu hình ảnh.
Tạo video-audio đồng thời từ một mô hình duy nhất (âm thanh bật) Mô hình đa phương thức 4B tham số được đào tạo trên 2 triệu cặp audio-video.
Self-Flow mở ra một con đường hướng tới các mô hình thế giới: kết hợp khả năng mở rộng hình ảnh với sự trừu tượng ngữ nghĩa để lập kế hoạch và hiểu biết. Đây là dự đoán hành động từ một mô hình 675 triệu tham số.
83