"Prisme-hypotesen" Denne nye artikkelen viser at bildemening stort sett ligger i lavfrekvente signaler, mens detaljer som teksturer finnes i høye frekvenser Ved å utnytte denne splittelsen bygger forfatterne et enkelt latent rom som støtter både forståelse (CLIP-stil) og generering (VAE-stil), slik at det ikke lenger er semantikk versus fidelitetskompromiss