Modelul open source de straturi explodate va apărea atât de curând? Permiteți-mi să vă aduc testul propriu-zis al modelului Qwen-Image-Layered lansat recent de Alibaba, care este un model mare ce poate împărți imaginile în diferite straturi, iar modelul este ajustat fin pe baza Qwen-Image. De data aceasta, testul meu acoperă scenele speciale ale modelului (poster), testul de conformitate al instrucțiunilor (specifică ținta de extracție), procesarea marginilor (păr) și testul de limitare (toate stickerele, un autocolant poate extrage peste 50 de straturi). Direct la concluzie, în primul rând, modelul este prea mare, pentru că acest model se bazează pe Qwen-Image, deci este un model 20B, am folosit GPU HuggingFace Zero pentru test, fiecare rulare timp de aproximativ 2 minute, modelul poate separa într-adevăr straturi, iar procesarea marginilor este foarte bună, dar stabilitatea trebuie optimizată, în testul meu pot fi 4 straturi de ieșire, dar 8 sau 10 straturi au explodat, bănuiesc că ar fi depășit timeout-ul GPU-ului Zero sau bug-ul ( GPU-ul este H200, puțin probabil să explodeze memoria video), dimensiunea ieșirii este doar 544*736, oficialul recomandă și rezoluția 640, care trebuie îmbunătățită, iar modelul este încă prea mare, 20B, sper să optimizez următoarea dimensiune.