"A Hipótese do Prisma" Este novo artigo mostra que o significado da imagem vive principalmente em sinais de baixa frequência, enquanto detalhes como texturas vivem em altas frequências. Ao explorar essa divisão, os autores constroem um único espaço latente que suporta tanto a compreensão (estilo CLIP) quanto a geração (estilo VAE), portanto, não há mais troca entre semântica e fidelidade.