Czy Google „Superhuman” Neural Network może naprawdę powiedzieć o lokalizacji dowolnego obrazu?

$config[ads_kvadrat] not found

Visualizing Convolutional Neural Networks using Lucid

Visualizing Convolutional Neural Networks using Lucid
Anonim

Wyszukiwanie obrazów jest łatwiejsze niż kiedykolwiek. Ale jeśli próbujesz znaleźć zdjęcie czegoś w miejscu, które nie jest całkowicie oczywiste (a nie egipskie piramidy lub gigantyczna rzeźba kciuka w Paryżu), jest to trudniejsze niż myślisz - nawet z informacjami geolokalizacyjnymi opartymi na tym, co na obrazie.

Wpisz inżyniera Google o nazwisku Tobias Weyand i parę jego kolegów. Według nowego artykułu w czasopiśmie arXiv (wymawiane „archiwum”), trio zbudowało maszynę do głębokiego uczenia się, która może wskazać lokalizację niemal każdego zdjęcia wyłącznie na podstawie analizy jego pikseli.

Aby maszyna mogła z powodzeniem wykonać takie zadanie, chcesz nadać jej intuicję w oparciu o wizualne wskazówki. Innymi słowy, chcesz myśleć, jak człowiek.

Weyand przystąpił do opracowania sztucznej sieci neuronowej - systemu maszynowego zaprojektowanego do naśladowania neurologicznych ścieżek mózgu, które pozwalają mu uczyć się, przetwarzać i przywoływać informacje takie jak człowiek. Ten nowy system, PlaNet, najwyraźniej jest w stanie przewyższać ludzi w określaniu lokalizacji obrazów bez względu na ustawienie - czy to wewnątrz, czy na zewnątrz, i oferujący wszelkiego rodzaju unikalne lub nieokreślone wizualne wskazówki.

Jak działa PlaNet? Weyand i jego zespół podzielili mapę świata na siatkę, która układała ponad 26 000 kwadratowych kształtów w różnych regionach, w zależności od tego, ile zdjęć wykonano w tych miejscach. Gęste miejsca, w których wykonano wiele zdjęć, mieszczą się w mniejszym kwadracie, podczas gdy większe, bardziej odległe regiony mogą pociąć się na większe kwadraty.

Następnie zespół stworzył dużą bazę danych obrazów już geolokowanych - prawie 126 milionów różnych zdjęć. Około 91 milionów zostało wykorzystanych jako zbiór danych, aby nauczyć PlaNet, jak ustalić, który obraz można umieścić w jakiej siatce na mapie świata.

Następnie sieć neuronowa otrzymała zadanie geolokalizacji pozostałych 34 milionów obrazów z bazy danych. Ostatecznie PlaNet został ustawiony na zestawie 2,3 miliona geotagowanych obrazów z Flickr.

Wyniki? PlaNet może określić kraj pochodzenia 28,4 procent zdjęć, a kontynent 48 procent. Ponadto system może wskazać lokalizację na poziomie ulicy dla 3,6% obrazów Flickr i lokalizację na poziomie miasta dla 10,1%.

A PlaNet jest w tym lepszy niż większość ludzi - nawet największych globtroterów. Weyand zwerbował 10 dobrze podróżujących osób do rywalizacji z PlaNet w grze oznaczającej lokalizacje zdjęć znalezionych w Google Street View.

„W sumie PlaNet wygrał 28 z 50 rund z medianą błędu lokalizacji 1131,7 km, podczas gdy średni błąd lokalizacji człowieka wynosił 2320,75 km” - napisali naukowcy. „Ten eksperyment na małą skalę pokazuje, że PlaNet osiąga nadludzką wydajność przy geolokalizacji scen Street View”.

Czy to się dzieje naprawdę? Czy inżynier Google naprawdę opracował „nadludzki” A.I. system?

Być może, jeśli chodzi o geolokalizację obrazów. I to nie jest zbyt zaskakujące - punkt A.I. nie polega na fundamentalnym naśladowaniu ludzkiego mózgu pod każdym względem, ale na pokonaniu ludzkich ograniczeń w kilka konkretnych sposobów, aby wykonać znacznie trudniejsze zadania. W tym sensie to, co piszą naukowcy, jest prawdą.

Ciągle jednak nazwać PlaNet „siecią neuronową”. Idealna forma tego rodzaju technologii byłaby w stanie poznać znacznie więcej niż geolokalizację obrazu. A.I. systemy są zdolne do pisania porównań i grania Super Mario, ale jest to niewielka rzecz w porównaniu z idealnym „głównym” systemem, który może automatycznie monitorować i utrzymywać funkcje życiowe, zarządzać transportem lub infrastrukturą energetyczną i wiele więcej.

$config[ads_kvadrat] not found