"La hipótesis del prisma" Este nuevo artículo muestra que el significado de la imagen vive principalmente en señales de baja frecuencia, mientras que detalles como las texturas viven en frecuencias altas Al aprovechar esta división, los autores construyen un único espacio latente que soporta tanto la comprensión (estilo CLIP) como la generación (estilo VAE), por lo que ya no hay más compromiso entre semántica y fidelidad