Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Czy model z otwartym źródłem do rozkładu warstw pojawił się tak szybko?
Przedstawiam Wam właśnie opublikowany przez Alibabę model Qwen-Image-Layered, który potrafi rozdzielać obrazy na różne warstwy. Model ten jest oparty na dostosowanym modelu Qwen-Image.
Moje testy obejmowały scenariusze, w których model sprawdza się najlepiej (plakaty), testy zgodności z instrukcjami (określone cele do wyodrębnienia), przetwarzanie krawędzi (włosy) oraz testy ekstremalne (wszystko to naklejki, jeśli każda naklejka to jedna warstwa, można wyodrębnić ponad 50 warstw).
Bez zbędnych ceregieli, po pierwsze model jest po prostu za duży, ponieważ oparty jest na Qwen-Image, więc to model 20B. Testowałem go na HuggingFace Zero GPU, każda próba trwała około 2 minut. Model rzeczywiście potrafi rozdzielać warstwy, a przetwarzanie krawędzi jest całkiem dobre, jednak stabilność wymaga optymalizacji. W moich testach udało się wyodrębnić 4 warstwy, ale przy 8 lub 10 warstwach model się zawieszał, podejrzewam, że to może być spowodowane przekroczeniem limitu czasu Zero GPU lub błędem (GPU to H200, więc mało prawdopodobne, że to problem z pamięcią). Rozmiar wyjściowy to tylko 544*736, a oficjalnie zalecana rozdzielczość to 640, co również wymaga poprawy, a model jest po prostu za duży, 20B, mam nadzieję, że uda się zoptymalizować jego rozmiar.
Najlepsze
Ranking
Ulubione
