Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Модель вибухового шару з відкритим кодом з'явиться так скоро?
Дозвольте розповісти вам про реальний тест моделі Qwen-Image-Layered, щойно випущеної Alibaba — це велика модель, що може розділяти зображення на різні шари, і модель тонко налаштована на основі Qwen-Image.
Цього разу мій тест охоплює спеціалізовані сцени моделі (постер), тест відповідності інструкціям (вкажіть цільову мету вилучення), обробку країв (волосся) та тест обмежень (усі наклейки, одна наклейка може витягти більше 50 шарів).
Одразу до висновку, по-перше, модель занадто велика, бо вона базується на Qwen-Image, тобто це модель на 20B, я тестував GPU HuggingFace Zero, кожен запуск триває близько 2 хвилин, модель дійсно може розділяти шари, обробка краю дуже хороша, але стабільність потребує оптимізації. У моєму тесті можна вивести 4 шари, але 8 або 10 шарів вибухнули, підозрюю, що це могло перевищити тайм-аут GPU Zero або баг ( GPU — H200, малоймовірно, що відеопам'ять вибухне), розмір виходу лише 544*736, офіційна особа також рекомендує роздільну здатність 640, це теж потрібно покращити, а модель все ще занадто велика, 20B, сподіваюся оптимізувати наступний розмір.
Найкращі
Рейтинг
Вибране
