"Ipoteza Prismei" Această nouă lucrare arată că sensul imaginii trăiește în mare parte în semnalele de frecvență joasă, în timp ce detalii precum texturile trăiesc în frecvențe înalte Exploatând această divizare, autorii construiesc un singur spațiu latent care susține atât înțelegerea (stil CLIP), cât și generarea (stil VAE), astfel încât să nu mai existe compromisuri între semancă și fidelitate