DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Il modello open source di scomposizione delle immagini è arrivato così in fretta? Vi presento il modello Qwen-Image-Layered appena rilasciato da Alibaba, che è un grande modello in grado di suddividere le immagini in diversi strati. Il modello è stato affinato sulla base di Qwen-Image. Il mio test copre le situazioni in cui questo modello eccelle (manifesti), il test di conformità alle istruzioni (estrazione di obiettivi specifici), la gestione dei bordi (capelli) e il test estremo (tutti adesivi, se un adesivo è uno strato, può estrarre più di 50 strati). Dico subito la conclusione: prima di tutto, il modello è troppo grande, poiché questo modello è basato su Qwen-Image, è un modello da 20B. Ho testato con HuggingFace Zero GPU, ogni esecuzione dura circa 2 minuti. Il modello può effettivamente separare gli strati e la gestione dei bordi è molto buona, ma la stabilità deve essere ottimizzata. Nei miei test, posso ottenere 4 strati in output, ma 8 o 10 strati si bloccano. Sospetto che possa essere dovuto a un timeout o a un bug di Zero GPU (la GPU è H200, quindi non è probabile che si esaurisca la memoria video). La dimensione di output è solo 544*736, e l'ufficiale raccomanda anche una risoluzione di 640, questo punto deve essere migliorato, e il modello è ancora troppo grande, 20B, spero che possano ottimizzare le dimensioni.

Principali

Ranking

Preferiti