Fotomisja do Maroko

Partnerzy

Oferta Cyfrowe.pl

Aparat cyfrowy OM System OM-1 II +12-40 mm f/2.8 Pro II

Cena: 12999 zł

Sprawdź

Obiektyw Nikon Nikkor Z 35 mm f/1.4

Cena: 2749 zł 2489 zł

Sprawdź

Aparat cyfrowy Nikon Aparat cyfrowy Nikon Z6 III body

Cena: 9999 zł 9158 zł

Sprawdź

Artykuły

Sztuczna Inteligencja w fotografii - przeszłość, teraźniejszość i przyszłość

19 sierpnia 2019

Drukuj

Maciej Smyl Komentarze: 34

2. Co już widzieliśmy?

Jak szybko rozwija się sztuczna inteligencja niech świadczy fakt, że pomiędzy rokiem 2008 a 2018 liczba patentów dotyczących AI wypuszczanych rocznie zwiększyła się ponad 3-krotnie.

Sztuczna Inteligencja w fotografii - przeszłość, teraźniejszość i przyszłość - Co już widzieliśmy?

Rys. WIPO Technology Trends 2019

Analizując powyższy wykres, przedstawiający światowe firmy z największą liczbą patentów zauważymy kilka firm związanych (między innymi) ze smartfonami oraz aparatami fotograficznymi – Microsoft, Samsung, Panasonic, Canon, Google (Alphabet), Sony, Ricoh, LG, Nokia. Oczywiście, nie wszystkie - a razej zdecydowana mniejszość - dotyczą wizji komputerowej. Pokazuje to jednak obecny trend i prognozę, że moce przerobowe największych firm wkładane w sztuczną inteligencję będą coraz większe.

Zacznijmy zatem od rozwiązań już obecnych na rynku. Skupię się tutaj jednak nie tylko na lustrzankach czy bezlusterkowcach, ale także na smartfonach (gdzie wszelkie nowinki najczęściej implementowane są najszybciej) oraz oprogramowaniu.

Lustrzanki i bezlusterkowce

Stosunkowo niedawno premierę miały dwa modele aparatów, których producenci chwalili się użyciem sztucznej inteligencji. Pierwszym z nich jest Sony A6400. Tutaj algorytmy Deep Learningowe użyte są do poprawienia śledzenia oka oraz śledzenia obiektów. Jakie mogą być korzyści z użycia AI do tego zadania? Klasycznie, do wykrywania oczu czy obiektów używane są standardowe metody wizji komputerowej. W kwestii oka, „ręcznie” wyszukuje się cechy charakterystyczne twarzy na pojedynczych klatkach, a następnie – w obszarze wysegmentowanym jako twarz - szuka się oka. Wykorzystanie modelu nauczonego na wielu przykładach jak wygląda twarz oraz oko, który sam ekstrahuje cechy oka, może zarówno przyspieszyć wykrywanie (pozbędziemy się często obecnego opóźnienia, które może wpływać na dokładność autofokusa), a także powinno poprawić ilość przypadkowych wykryć oka – czyli momentów, w których aparat zobaczy twarz i oko na chmurach czy na drzewach, które mają wystarczającą ilość cech do tego, aby błędnie zakwalifikować je jako twarz czy oko. Modele Deep Learningowe są bowiem znacznie bardziej dokładne od klasycznych, bazujących na ręcznie „wyciąganych” cechach. Dodatkowo, pozwala to na wykrywanie oczu nie tylko ludzi, ale i zwierząt. Wystarczy wytrenować modele Deep Learningowe dużą ilością pysków zwierząt z różnych gatunków tak, aby ten nauczył się cech charakterystycznych twarzy oraz oka danego rodzaju zwierzęcia. Następnie, podczas detekcji, wykrywany jest rodzaj zwierzęcia oraz jego oko.

----- R E K L A M A -----

GORĄCE CENY ZA ZESTAWY OD SONY!

Sony A7 IV + Sony 16-35/2.8 FE GM II ...

22258 zł 21058 zł

Sony A7 IV + Sony 200-600/5.6-6.3 FE ...

18258 zł 17258 zł

Sony A6700 + Sony 70-350/ E G OSS + N...

10529 zł 9929 zł

Sony A7R V + Sony 24-70/2.8 FE GM II ...

27588 zł 26588 zł

Kupujemy używany sprzęt za gotówkę. Raty 20x0%!

Rys. Sony

Pytanie jednak o ograniczenia. Na pewno detekcja oka nie będzie działać na wszystkich gatunkach, ponieważ pyski - oraz oczy - zwierząt z różnych gatunków bardzo mocno się potrafią od siebie różnić. Prawdopodobnie zatem funkcja ta będzie działać tylko na najpopularniejszych gatunkach zwierząt, na czele z psami czy kotami (jak na razie, tylko te zwierzęta są dostępne - kolejne mają zostać dodane w przyszłych aktualizacjach). Mimo to, użycie metod Deep Learningowych powinno znacznie usprawnić wykrywanie oka (i twarzy) oraz sprawić, że funkcja ta jeszcze bardziej zbliży się do ideału.

Podobne podejście do kwestii AI w swoich aparatach ma Olympus. Niedawna premiera E-M1X wprowadziła ze sobą metody wykrywania obiektów za pomocą sztucznej inteligencji. Znowu zatem mamy do czynienia z usprawnieniem tylko i wyłącznie autofokusa – i nie ma w tym nic dziwnego, bo wydaje się, że w aparatach to właśnie autofokus może być głównym beneficjentem Deep Learningowych metod. Tutaj z kolei producent zaimplementował głębokie uczenie do wykrywania (oraz segmentacji) obiektów – samochodów oraz motocyklów, samolotów oraz pociągów. Dzięki temu, że aparat będzie wiedział, co „widzi”, ustawienie ostrości ma być sprawniejsze i dokładniejsze poprzez fakt, że ruch każdego z tych obiektów jest na swój sposób specyficzny.

W zasadzie dokładnie to samo zobaczyliśmy w aparatach pełnoklatkowych Panasonic – za pomocą sztucznej inteligencji aparat jest w stanie wykryć człowieka, ptaka oraz psa czy kota. Świadomość, co śledzi aparat, pozwala mu na lepsze przewidzenie ruchu oraz śledzenie obiektu nawet, gdy jest odwrócony.

Natomiast pierwszym rozwiązaniem, dumnie nazywanym „AI”, był Canonowski AI Servo autofocus, pochodzący z roku 2009. Tryb ten nie polegał jednak na tym, co wyżej wspomniane rozwiązania Olympusa i Sony. Canon używał sztucznej inteligencji do efektywnego zarządzania punktami, które brały udział w śledzeniu obiektu.

Możemy się domyślać, że kolejni producenci będą implementować swoje algorytmy wspierające autofokus i wykrywanie oraz śledzenie obiektów będzie jeszcze dokładniejsze. To, na czym jeszcze mogą zyskać producenci zwracając się w stronę algorytmów sztucznej inteligencji, jest stabilizacja. Nad tą kwestią pochylimy się jednak nieco dalej.

Smartfony

Tutaj mamy znacznie więcej gotowych rozwiązań czerpiących wprost ze sztucznej inteligencji. Producentem, który przoduje w implementacji najnowszych algorytmów wizji komputerowej w gotowych urządzeniach jest chiński gigant Huawei.

Zacznijmy zatem od właśnie tej firmy. To ona jest bowiem najbardziej kojarzona ze słowem „AI”, gdyż duża część jej ostatnich materiałów prasowych i reklam skupia się właśnie na tym temacie. Warto zaznaczyć, że skupimy się jedynie na rozwiązaniach usprawniających aparat fotograficzny, a nie inne komponenty telefonu. Pytanie zatem, na ile mamy do czynienia z marketingową „papką”, a na ile rozwiązania te rzeczywiście mogą pomóc użytkownikom w robieniu lepszych zdjęć?

Rys. Huawei

Sztandarowym rozwiązaniem Huaweia jest rozpoznawanie scen i obiektów i dostosowanie do nich ustawień aparatu oraz obróbki. Mamy więc model wytrenowany na bazie ogromnej ilości zdjęć, który patrząc na daną scenę wie, co na niej się znajduje i – co najważniejsze – gdzie. Dzięki temu aparat może dobrać odpowiednie ustawienia ekspozycji, zdecydować, czy skorzystać z funkcji HDR czy – w końcu – nałożyć filtr kolorystyczny. Funkcjonalność ta poprawia także skanowanie aparatem dokumentów. Najnowsze smartfony producenta są w stanie rozpoznać 1500 scen i zakwalifikować je w 25 kategoriach.

Kolejną funkcjonalnością chińskiego potentata jest stabilizacja obrazu wspierana przez sztuczną inteligencję (AIS) – dzięki niej producent zaimplementował tryb zdjęć nocnych, podczas których smartfon musi pozostać nieruchomy przez około 6 sekund. Jak to działa? W smartfonach producenta mamy do dyspozycji optyczną stabilizację obrazu. Za pomocą sztucznej inteligencji, smartfon analizuje na bieżąco scenę oraz ocenia ruchy smartfonu i, mając do dyspozycji stabilizację obrazu, stara się kompensować ruchy w jak najwydajniejszy sposób. W zasadzie więc sztuczna inteligencja po prostu „steruje” OIS. W trybie nocnym, smartfon dodatkowo analizuje wykonane zdjęcia i składa je w jak najlepszy sposób. Niestety, szczegółów tej technologii nie poznaliśmy - producent nie podzielił się żadną publikacją naukową na temat AIS.

Poza Huaweiem, algorytmy sztucznej inteligencji do rozpoznawania obrazów znajdziemy w smartfonach Apple, Oppo czy Google. W telefonach tych producentów zaimplementowano między innymi tryb portretu przy użyciu pojedynczego obiektywu, dzięki któremu, robiąc zdjęcie sobie czy komuś innemu możemy nanieść efekt automatycznego rozmycia tła, tak, by fotografia przypominała tę wykonaną profesjonalnym aparatem. Funkcja ta polega na automatycznym rozpoznaniu osoby na zdjęciu, dokonaniu segmentacji fotografowanego motywu od tła oraz rozmyciu tła w jak najbardziej naturalny sposób.

Oprogramowanie do obróbki

Równie ważnym, jak nie najważniejszym beneficjentem technologii głębokiego uczenia jest oprogramowanie do obróbki zdjęć. Oprogramowanie Luminar w wersji 3 wprowadziło suwaki o nazwie „AI”. Wystarczy, że przeciągniemy dany suwak w prawo, a oprogramowanie wykona całą robotę z obróbką za nas – jeden odpowiada za nałożenie filtra dostosowanego do rozpoznanej sceny, a drugi segmentuje niebo na zdjęciu i wzmacnia jego nasycenie oraz dodaje nieco „dramatyzmu”.

Rys. Luminar

Co ważne, program potrafi działać selektywnie na zdjęciach, na których ujęto w kadrze ludzi. Jak to działa? Spójrzmy na poniższą sekwencje kroków.

Rys. Luminar

Jak widać, oprogramowanie wykorzystuje omówione wcześniej metody – detekcję i segmentację za pomocą sztucznej inteligencji, a także, tak jak Huawei, rozpoznanie sceny.

Podobnie działa oprogramowanie Photolemur 3. Software ten przychodzi jednak z jedną dodatkową opcją – automatyczną obróbką twarzy. Po wczytaniu zdjęcia, na którym znajduje się model czy modelka, program nałoży filtry wygłądzające skórę, usuwające niedoskonałości, uwydatniające oczy oraz wybielające zęby.

Rys. Photolemur

Również najpopularniejszy chyba program do obróbki fotografii, Adobe Lightroom, wykorzystuje sieci neuronowe. Pierwszym przykładem jest opcja „Enhance Details”. Programiści użyli algorytmów sztucznej inteligencji do poprawy algorytmów demozaikowania.

Rys. Adobe

Efektem mają być bardziej szczegółowe zdjęcia ze zredukowanymi efektami ubocznymi wynikającymi z interpolacji, takimi jak np. mora. Sieć została wytrenowana do jak najlepszego demozaikowania zdjęć za pomocą splotowych sieci neuronowych na ponad miliardach przykładów zdjęć, na których interpolacja nie przebiegła do końca poprawnie.

Kolejnym rozwiązaniem Adobe, tym razem dostępnym w programie Photoshop, jest One Click Subject Selection. Naukowcy wykorzystali sztuczną inteligencję do dokładnej segmentacji zaznaczonego przez użytkownika obiektu. Narzędzie to pojawiło się po raz pierwszy w programie Photoshop CC na początku 2018 roku.

Poza profesjonalnym oprogramowaniem do obróbki zdjęć, mamy na rynku całą masę aplikacji działających na smartfonach. Swego czasu dużą popularność zdobył program Prisma, który na nasze zdjęcia automatycznie nakładał filtry zbliżające wgraną fotografię do dzieła sztuki. Podobnie działa również DeepArt. Obie te aplikację zasadę swojego działania opierają na tak zwanym transferze stylu (ang. Neural Style Transfer), który czerpie bezpośrednio z głębokiego uczenia. Jak to działa?

Jeżeli mamy do dyspozycji dwa zdjęcia, wytrenowana sieć neuronowa nałoży na wejściowe zdjęcie styl, na którym została wytrenowana. Przykłady można zobaczyć poniżej.

Rys. https://medium.com/tensorflow/neural-style-transfer-creating-art-with-deep-learning-using-tf-keras-and-eager-execution-7d541ac31398

Niedawno internet zalały zdjęcia z rosyjskiej aplikacji FaceApp, która potrafi w realistyczny sposób postarzyć twarz osoby na zdjęciu o dobre kilkadziesiąt lat. Sukces aplikacji jest niezaprzeczalny. Korzysta ona jednak z nieco innego rozwiązania, niż transfer stylu – z sieci GAN (ang. Generative Adversarial Neural Networks). Zasada tego algorytmu opiera się na dwóch sieciach rywalizujących ze sobą podczas treningu – Generatora oraz Dyskryminatora. Celem tego pierwszego jest stworzenie z szumu, który otrzymał na wejściu zdjęcia, które będzie w stanie „oszukać” Dyskryminator trenowany na prawdziwych fotografiach. Generator, wraz z treningiem, staje się coraz lepszy w kreowaniu realistycznych obrazów, a Dyskryminator – coraz lepszy w rozróżnianiu, czy zdjęcie stworzone przez Generator jest prawdziwe, czy nie. Taka rywalizacja sprawia więc, że sieci te są w stanie tworzyć zadziwiająco realistyczne efekty.

Rys. https://skymind.com/wiki/generative-adversarial-network-gan

Po zakończonym treningu potrzebujemy już tylko Generatora – ten, z wejściowego zdjęcia, będzie w stanie stworzyć realistyczny obraz przypominający to, na czym go wytrenowaliśmy. Czyli, w przypadku FaceApp, ze wejściowego zdjęcia jakiejś osoby wygeneruje nam postarzoną twarz.

Fot. Archiwum własne / FaceApp

Przykładem kolejnej aplikacji, która nie spędziła jednak na rynku zbyt dużo czasu ze względu na oskarżenia o seksizm i potencjalnie niebezpieczne zastosowania, jest DeepNude – również czerpiący garściami z GAN-ów.

Rys. DeepNude

Z wgranego zdjęcia w ubraniach czy bieliźnie aplikacja była w stanie realistycznie „rozebrać” osobę na zdjęciu. Dlaczego mogliśmy w ten sposób pozbawić ubrań tylko kobiety? Autor nie był w stanie znaleźć wystarczającej liczby zdjęć mężczyzn w ubraniach i bez ubrań, na których mógłby wytrenować sieci GAN. Z kobietami nie było podobnego problemu. W efekcie, wgranie do aplikacji zdjęcia mężczyzny skutkowało zdjęciem wyjściowym z nałożonym kobiecym ciałem.

Kolejnym ciekawym wykorzystaniem sztucznej inteligencji, które w zasadzie stoi w kontrze do dwóch przedstawionych wyżej aplikacji, jest narzędzie Adobe. Pozwala ono wykryć zdjęcia, na których dokonano jakiejkolwiek manipulacji – zarówno poprzez wykorzystanie narzędzi DeepFake, takich jak FaceApp czy DeepNude, jak i po prostu użycia znanego "photoshopowego" narzędzia Liquify. Jak na razie, algorytm został wytrenowany tylko na tym ostatnim i jest w stanie z 99-procentową dokładnością stwierdzić, czy zdjęcie zostało poddane manipulacji, czy nie.

Kolejnym rozwiązaniem już obecnym na rynku, używającym (w większości implementacji) omówionych wyżej GAN-ów jest tak zwane „bezstratne” powiększanie zdjęć. Najpopularniejszym narzędziem jest Topaz AI Gigapixel. Poza tym, w internecie znajdziemy jeszcze programy Bigjpg oraz LetsEnhance. My sprawdziliśmy, jakie efekty udaje się osiągnąć, powiększając zdjęcie, używając ostatniego z wymienionych programów. Powiększyliśmy widoczne poniżej zdjęcie 4-krotnie, używając Photoshopa oraz LetsEnhance.