"Giả thuyết Prism" Bài báo mới này cho thấy rằng ý nghĩa hình ảnh chủ yếu tồn tại trong các tín hiệu tần số thấp, trong khi các chi tiết như kết cấu tồn tại trong tần số cao. Bằng cách khai thác sự phân chia này, các tác giả xây dựng một không gian tiềm ẩn duy nhất hỗ trợ cả việc hiểu (kiểu CLIP) và tạo ra (kiểu VAE), vì vậy không còn sự đánh đổi giữa ngữ nghĩa và độ trung thực nữa.