«Гіпотеза призми» У цій новій статті показано, що значення зображення здебільшого живе у низькочастотних сигналах, тоді як деталі, як-от текстури, живуть у високих частотах Використовуючи це розділення, автори створюють єдиний латентний простір, який підтримує як розуміння (у стилі CLIP), так і генерацію (у стилі VAE), тож більше немає компромісу між семантикою та вірністю