Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Il modello open source di scomposizione delle immagini è arrivato così in fretta?
Vi presento il modello Qwen-Image-Layered appena rilasciato da Alibaba, che è un grande modello in grado di suddividere le immagini in diversi strati. Il modello è stato affinato sulla base di Qwen-Image.
Il mio test copre le situazioni in cui questo modello eccelle (manifesti), il test di conformità alle istruzioni (estrazione di obiettivi specifici), la gestione dei bordi (capelli) e il test estremo (tutti adesivi, se un adesivo è uno strato, può estrarre più di 50 strati).
Dico subito la conclusione: prima di tutto, il modello è troppo grande, poiché questo modello è basato su Qwen-Image, è un modello da 20B. Ho testato con HuggingFace Zero GPU, ogni esecuzione dura circa 2 minuti. Il modello può effettivamente separare gli strati e la gestione dei bordi è molto buona, ma la stabilità deve essere ottimizzata. Nei miei test, posso ottenere 4 strati in output, ma 8 o 10 strati si bloccano. Sospetto che possa essere dovuto a un timeout o a un bug di Zero GPU (la GPU è H200, quindi non è probabile che si esaurisca la memoria video). La dimensione di output è solo 544*736, e l'ufficiale raccomanda anche una risoluzione di 640, questo punto deve essere migliorato, e il modello è ancora troppo grande, 20B, spero che possano ottimizzare le dimensioni.
Principali
Ranking
Preferiti
