"Hypotéza hranolu" Tento nový článek ukazuje, že význam obrazu většinou žije v nízkofrekvenčních signálech, zatímco detaily jako textury žijí ve vysokých frekvencích Využitím tohoto rozdělení autoři vytvářejí jeden latentní prostor, který podporuje jak porozumění (ve stylu CLIP), tak generování (styl VAE), takže už není žádný kompromis mezi sémantikou a věrností