¿El modelo de capa explosiva de código abierto llegará tan pronto? Permítanme presentarles la prueba real del modelo Qwen-Image-Layered recién lanzado por Alibaba, que es un modelo grande que puede dividir imágenes en diferentes capas, y el modelo está ajustado en función de Qwen-Image. Esta vez mi prueba cubre las escenas especiales del modelo (póster), la prueba de cumplimiento de instrucciones (especifica el objetivo de extracción), el procesamiento de bordes (cabello) y la prueba de límite (todas las pegatinas, una pegatina puede extraer más de 50 capas). Directamente a la conclusión, primero, el modelo es demasiado grande, porque este modelo está basado en Qwen-Image, así que es un modelo 20B, usé la GPU HuggingFace Zero para probar, cada ejecución dura unos 2 minutos, el modelo puede separar capas y el procesamiento de bordes es muy bueno, pero la estabilidad necesita optimizarse, en mi prueba pueden salir 4 capas, pero 8 o 10 capas explotaron, sospecho que pudo haber superado el tiempo límite de la GPU cero o un error ( La GPU es H200, es poco probable que explote la memoria de vídeo), el tamaño de salida es solo 544*736, el funcionario también recomienda una resolución de 640, esto también necesita mejorarse, y el modelo sigue siendo demasiado grande, 20B, espero optimizar el siguiente tamaño.