"Hipoteza Prizma" Ten nowy artykuł pokazuje, że znaczenie obrazu w dużej mierze tkwi w sygnałach o niskiej częstotliwości, podczas gdy szczegóły, takie jak tekstury, znajdują się w wysokich częstotliwościach. Wykorzystując to rozdzielenie, autorzy budują jedną przestrzeń latentną, która wspiera zarówno zrozumienie (w stylu CLIP), jak i generację (w stylu VAE), więc nie ma już kompromisu między semantyką a wiernością.