FARMER结合了可逆自回归流,可以在不丢失信息的情况下将图像映射到潜在空间及其反向映射,并与自回归Transformer相结合,后者使用高斯混合模型对每个潜在标记的分布进行建模,在单阶段、像素级生成器中提供精确的似然性。 它引入了三个关键创新: - 自监督通道分离将潜在特征分为信息性(Zᴵ)和冗余(Zᴿ)组,有效建模结构和细节。 - 基于重采样的无分类器引导(CFG)提高了图像质量并实现可控采样。 - 一步AF蒸馏通过用单个快速反向步骤替代缓慢的顺序反转,加速了生成。 在ImageNet-256(类条件,50k样本)上,1.9B patch-8模型实现了FID 3.60 / IS 269.21 / Prec 0.81 / Rec 0.51。经过+60个周期后,AF反向推理速度提高了22倍(0.1689s → 0.0076s每张图像),整体速度提高了约4倍(0.2189s → 0.0567s每张图像)。 它的表现优于JetFormer 2.8B(FID 6.64)和TARFlow p8(4.69),并且与STARFlow p8具有竞争力。STARFlow的解码器微调变体(FID 2.40)仍然更强,但使用了多阶段设置。