DraGAN - kolejne narzędzie AI pokazuje jak będzie wyglądać przyszłość obróbki zdjęć

Autor: Maciej Luśtyk

22 Maj 2023

Artykuł na: 4-5 minut

Technologie AI na dobre wkraczają na rynek pracy komercyjnej. Naukowcy z Instytutu Maxa Placka, MIT i Google prezentują system, który już niedługo może rozbudować możliwości programów do edycji.

Rok 2023 już teraz możemy śmiało nazwać rokiem sztucznej inteligencji. Najnowsze wersje generatorów grafiki typu MidJourney i Dall-E 2, wyrastające się jak grzyby po deszczu nowe usługi AI, globalne firmy zapowiadające wdrożenie układów SI do codziennych praktyk, edytor AI rozwijany przez Adobe czy pierwsze komercyjne zastosowania stworzonych w całości cyfrowo obrazów pokazują, jasno pokazują, że rynek wizualny zmienia się dosłownie na naszych oczach.

Do grupy technologii, które już niebawem mają szansę odmienić sposób, w jaki pracujemy z grafiką i zdjęciami dołącza DraGAN - nowy system GAN (Generative Adversarial Network), opracowany przez naukowców zrzeszonych w Max Planck Institute for Informatics, MIT Computer Science and Artificial Intelligence Laboratory oraz Google AR/VR.

Wesoły Biden, poważny Biden. DraGAN pokazuje możliwości edycji obrazów, jakich jeszcze nie widzieliśmy

W odróżnieniu od innych generatywnych systemów AI, DraGAN, zamiast na kreowaniu obrazu od podstaw, skupia się głównie na możliwościach jego edycji. A te są naprawdę imponujące. System bazujący na punktowej edycji pozwala na „inteligentną” transformację obrazu, umożliwiając m.in.: swobodne obracanie dwuwymiarowych obiektów, zmianę póz ludzi i zwierząt, korekcję mimiki czy łatwą regulację wyglądu ubioru lub fryzury. Dla przykładu system jest w stanie zamienić zwykłą fotografię „paszportową” wykonaną en-face w obraz uśmiechniętej osoby, która puszcza do nas oko czy też sprawić, by spokojnie stojący na zdjęciu lew zaczął ryczeć.

Fujifilm GFX100RF - Raty 20x0%

22 999 zł

PANASONIC LUMIX S1R II + Fotoforma Care - raty 20 x 0%

15 499 zł

SONY FE 400-800 MM F/6.3-8 G OSS - raty 20 x 0%

13 299 zł

Canon PowerShot V1 Premium Vlogger Kit - Raty 20x0%

4 549 zł

Canon EOS R50 V body - Raty 20x0%

3 329 zł

Główne demo systemu DraGAN (przyspieszone)

DraGAN określany jest mianem photoshopowej funkcji Liquify (Skraplanie) na sterydach i prawdopodobnie nie minie dużo czasu, zanim opracowane w ramach projektu rozwiązania zobaczymy w czołowych programach do edycji. System już teraz oferuje interfejs umożliwiający swobodne wykorzystywanie go przez laików, toteż tylko kwestią czasu jest aż zostanie od udostępniony developerom w formie licencji. W końcu nietrudno wyobrazić sobie jakie korzyści może przynieść on w pracy komercyjnej.

Zbliżamy się do momentu, w którym profesjonalna fotografia przestanie być potrzebna. Przynajmniej w ujęciu komercyjnym

Pisząc o korzyściach warto też zwrócić uwagę na dalsze ograniczenie funkcji fotografii w tworzeniu przekazu wizualnego. O ile dotychczasowe generatory są już w stanie stworzyć fotorealistyczne, potrafiące w pełni oszukać odbiorcę obrazy, to nadal dość widocznie ograniczają nas w zakresie precyzyjnej nad nim kontroli. Bazujemy na tym, jak dany system przetworzy nasze prompty, poza pracą w obrębie jednego seeda nie ma też mowy o powtarzalności. Dzięki połączeniu możliwości DraGANa z systemami generowania grafik użytkownik mógłby w dużej mierze ominąć te przeszkody, dostosowując wygenerowany obraz dokładnie do swoich oczekiwać. Tym samym znacznie zmalałaby konieczność sięgania po tradycyjną fotografię jako medium bazowego czy też w celu stworzenia ilustracji do konkretnego scenariusza.

Oczywiście, jak pisaliśmy już wielokrotnie, nawet znaczny rozwój systemów tego typu nie oznacza końca fotografii jako takiej, należy się jednak przygotować na to, że w świecie realizacji komercyjnych z roku na rok może mieć ona coraz mniejsze znaczenie.

Więcej informacji i przykładów działania systemu DraGAN znajdziecie na stronie vcai.mpi-inf.mpg.de.