"Prismhypotesen" Denna nya artikel visar att bildbetydelsen mestadels finns i lågfrekventa signaler, medan detaljer som texturer finns i höga frekvenser Genom att utnyttja denna uppdelning bygger författarna ett enda latent utrymme som stödjer både förståelse (CLIP-stil) och generering (VAE-stil), så att det inte längre finns semantik kontra trohetsavvägning