一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

FARMER 結合了可逆自回歸流，能夠在不損失信息的情況下將圖像映射到潛在空間及從潛在空間映射回來，並與自回歸 Transformer 結合，使用高斯混合模型來建模每個潛在標記的分佈，提供單階段、像素級生成器的精確似然性。它引入了三個關鍵創新： - 自我監督的通道分割將潛在特徵分為信息性 (Zᴵ) 和冗餘 (Zᴿ) 兩組，有效地建模結構和細節。 - 基於重採樣的無分類器引導 (CFG) 改善了圖像質量並實現可控取樣。 - 一步 AF 蒸餾通過用單個快速反向步驟替代緩慢的序列反轉來加速生成。在 ImageNet-256（類條件，50k 樣本）上，1.9B patch-8 模型達到 FID 3.60 / IS 269.21 / Prec 0.81 / Rec 0.51。經過 +60 個時期後，推理速度對於 AF 反向變得快了 22 倍（0.1689s → 0.0076s 每張圖像），整體速度約快了 4 倍（0.2189s → 0.0567s 每張圖像）。它的表現超過了 JetFormer 2.8B（FID 6.64）和 TARFlow p8（4.69），並且與 STARFlow p8 競爭。STARFlow 的解碼器微調變體（FID 2.40）仍然更強，但使用了多階段設置。