Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Is het open-source gelaagd model zo snel gekomen?
Ik breng jullie de recente testresultaten van het door Alibaba gepubliceerde Qwen-Image-Layered model. Dit is een groot model dat afbeeldingen in verschillende lagen kan splitsen, en het model is gebaseerd op een fine-tuning van Qwen-Image.
Mijn test dekt de sterke punten van dit model (posters), instructievolgtests (specifieke doelextractie), randverwerking (haar), en extreme tests (volledig met stickers, als elke sticker een laag is, kunnen er meer dan 50 lagen worden geëxtraheerd).
Om het kort te zeggen, het model is in eerste instantie gewoon te groot. Omdat dit model gebaseerd is op Qwen-Image, is het een 20B model. Ik heb het getest met HuggingFace Zero GPU, en elke run duurt ongeveer 2 minuten. Het model kan inderdaad lagen scheiden, en de randverwerking is behoorlijk goed, maar de stabiliteit moet nog worden geoptimaliseerd. Tijdens mijn test konden er 4 lagen worden uitgegeven, maar bij 8 of 10 lagen crashte het. Ik vermoed dat dit misschien te maken heeft met een time-out of bug van de Zero GPU (de GPU is H200, dus het is onwaarschijnlijk dat het geheugen volloopt). De uitvoerresolutie is slechts 544*736, en de officiële aanbeveling is 640 resolutie, dit moet ook verbeterd worden, en het model is nog steeds te groot, 20B, hopelijk kan de grootte geoptimaliseerd worden.
Boven
Positie
Favorieten
