Wydarzenia
Sprawdź promocje Black Friday w Cyfrowe.pl
Technologie AI na dobre wkraczają na rynek pracy komercyjnej. Naukowcy z Instytutu Maxa Placka, MIT i Google prezentują system, który już niedługo może rozbudować możliwości programów do edycji.
Rok 2023 już teraz możemy śmiało nazwać rokiem sztucznej inteligencji. Najnowsze wersje generatorów grafiki typu MidJourney i Dall-E 2, wyrastające się jak grzyby po deszczu nowe usługi AI, globalne firmy zapowiadające wdrożenie układów SI do codziennych praktyk, edytor AI rozwijany przez Adobe czy pierwsze komercyjne zastosowania stworzonych w całości cyfrowo obrazów pokazują, jasno pokazują, że rynek wizualny zmienia się dosłownie na naszych oczach.
Do grupy technologii, które już niebawem mają szansę odmienić sposób, w jaki pracujemy z grafiką i zdjęciami dołącza DraGAN - nowy system GAN (Generative Adversarial Network), opracowany przez naukowców zrzeszonych w Max Planck Institute for Informatics, MIT Computer Science and Artificial Intelligence Laboratory oraz Google AR/VR.
W odróżnieniu od innych generatywnych systemów AI, DraGAN, zamiast na kreowaniu obrazu od podstaw, skupia się głównie na możliwościach jego edycji. A te są naprawdę imponujące. System bazujący na punktowej edycji pozwala na „inteligentną” transformację obrazu, umożliwiając m.in.: swobodne obracanie dwuwymiarowych obiektów, zmianę póz ludzi i zwierząt, korekcję mimiki czy łatwą regulację wyglądu ubioru lub fryzury. Dla przykładu system jest w stanie zamienić zwykłą fotografię „paszportową” wykonaną en-face w obraz uśmiechniętej osoby, która puszcza do nas oko czy też sprawić, by spokojnie stojący na zdjęciu lew zaczął ryczeć.
Główne demo systemu DraGAN (przyspieszone)
DraGAN określany jest mianem photoshopowej funkcji Liquify (Skraplanie) na sterydach i prawdopodobnie nie minie dużo czasu, zanim opracowane w ramach projektu rozwiązania zobaczymy w czołowych programach do edycji. System już teraz oferuje interfejs umożliwiający swobodne wykorzystywanie go przez laików, toteż tylko kwestią czasu jest aż zostanie od udostępniony developerom w formie licencji. W końcu nietrudno wyobrazić sobie jakie korzyści może przynieść on w pracy komercyjnej.
Pisząc o korzyściach warto też zwrócić uwagę na dalsze ograniczenie funkcji fotografii w tworzeniu przekazu wizualnego. O ile dotychczasowe generatory są już w stanie stworzyć fotorealistyczne, potrafiące w pełni oszukać odbiorcę obrazy, to nadal dość widocznie ograniczają nas w zakresie precyzyjnej nad nim kontroli. Bazujemy na tym, jak dany system przetworzy nasze prompty, poza pracą w obrębie jednego seeda nie ma też mowy o powtarzalności. Dzięki połączeniu możliwości DraGANa z systemami generowania grafik użytkownik mógłby w dużej mierze ominąć te przeszkody, dostosowując wygenerowany obraz dokładnie do swoich oczekiwać. Tym samym znacznie zmalałaby konieczność sięgania po tradycyjną fotografię jako medium bazowego czy też w celu stworzenia ilustracji do konkretnego scenariusza.
Oczywiście, jak pisaliśmy już wielokrotnie, nawet znaczny rozwój systemów tego typu nie oznacza końca fotografii jako takiej, należy się jednak przygotować na to, że w świecie realizacji komercyjnych z roku na rok może mieć ona coraz mniejsze znaczenie.
Więcej informacji i przykładów działania systemu DraGAN znajdziecie na stronie vcai.mpi-inf.mpg.de.