Nowy algorytm MIT może przewidzieć interakcje między ludźmi zanim staną się niezręczne

$config[ads_kvadrat] not found

Algorytmy i struktury danych. Wykład 6. Algorytmy zachłanne, część 1.

Algorytmy i struktury danych. Wykład 6. Algorytmy zachłanne, część 1.
Anonim

Nasza niezdolność do czytania innych ludzi doprowadziła do kilku epickich porażek i nieudanych pocałunków. Nawet po długim doświadczeniu ludzkie interakcje są trudne do przewidzenia. Jednak naukowcy z Laboratorium Informatyki i Sztucznej Inteligencji MIT uważają, że mogą pomóc: dzięki nowemu algorytmowi głębokiego uczenia się, który może przewidzieć, kiedy dwoje ludzi będzie się ściskać, całować, uścisnąć dłoń lub piątkę, zrobili duży krok w kierunku przyszłości błogosławiony pozbawiony tych niezręcznych chwil.

Mają nadzieję, że ich nowy algorytm - wyszkolony na 600 godzin filmów z YouTube i programów telewizyjnych, takich jak Biuro, Zarośla, Teoria wielkiego podrywu, i Desperate Housewives - może być używany do programowania mniej społecznie niewygodnych robotów i do opracowywania zestawów słuchawkowych w stylu Google Glass, aby zasugerować nam działania, zanim jeszcze będziemy mieli szansę przegapić. W przyszłości wyobrażają sobie, że już nigdy więcej nie zepsujesz szansy na zdobycie piątki ze swoim współpracownikiem.

Kluczem do sukcesu algorytmu było uświadomienie sobie, że roboty uczą się bycia towarzyskim w taki sam sposób, jak my. „Ludzie automatycznie uczą się przewidywać działania dzięki doświadczeniu, co nas zainteresowało próbą nasycenia komputerów takim samym zdrowym rozsądkiem”, mówi CSAIL Ph.D. student Carl Vondrick, pierwszy autor na temat tego artykułu, który został zaprezentowany w tym tygodniu na Międzynarodowej Konferencji na temat Wizji Komputerowej i Rozpoznawania Wzorów. „Chcieliśmy pokazać, że tylko oglądając duże ilości wideo, komputery mogą zdobyć wystarczającą wiedzę, aby konsekwentnie przewidywać swoje otoczenie”.

Vondrick i jego zespół nauczyli algorytmu wiele „sieci neuronowych” do analizowania ogromnych ilości danych w tym przypadku, godzin piątkowej Jim i Pam, a także ukrytych pocałunków Mike'a i Susan. Biorąc pod uwagę czynniki takie jak wyciągnięte ramiona, podniesiona ręka lub długotrwałe spojrzenie, każda z sieci neuronowych odgadła, co wydarzy się w następnej sekundzie, a ogólny konsensus sieci został przyjęty jako ostateczna „przepowiednia” w badanie.

Algorytm sprawdził się w 43% przypadków. Chociaż może to nie wydawać się wystarczająco wysokie, aby zagwarantować, że nasze codzienne interakcje będą mniej dziwne, to jest to duża poprawa w stosunku do istniejących algorytmów, które mają precyzję zaledwie 36 procent.

Poza tym ludzie mogą przewidywać działania tylko przez 71 procent czasu. Potrzebujemy każdą pomoc jaką możemy otrzymać.

W drugiej części badania algorytm nauczono przewidywać, który obiekt - domowe zszywki sitcomowe, takie jak piloty, naczynia i kosze na śmieci - pojawią się w scenie pięć sekund później. Na przykład, jeśli drzwi mikrofalowe są otwarte, istnieje stosunkowo duża szansa, że ​​obok pojawi się kubek.

Ich algorytm nie jest jeszcze wystarczająco dokładny dla Google Glass, ale ze współautorem dr Antonio Torralba. - ufundowane przez nagrodę badawczą wydziału Google i Vondrick współpracujący z Google Ph.D. Drużyna - możemy się założyć, że tam dotrze. Przyszłe wersje algorytmu, jak przewiduje Vondrick, mogą być używane do programowania robotów w celu interakcji z ludźmi, a nawet do nauczania kamer bezpieczeństwa, aby rejestrowały się, gdy osoba upadnie lub dozna obrażeń.

„Film nie jest książką„ Wybierz własną przygodę ”, w której można zobaczyć wszystkie potencjalne ścieżki” - mówi Vondrick. „Przyszłość jest z natury dwuznaczna, więc ekscytujące jest rzucenie wyzwania systemowi, który wykorzystuje te reprezentacje do przewidywania wszystkich możliwości”.

$config[ads_kvadrat] not found