Zrozumienie języka naturalnego jest przyszłością A.I. Rozpoznawanie głosu

Sztuczna inteligencja | Paweł Iwanowski w wywiadzie dla Rzeczpospolita

Wraz z pojawieniem się Amazona Alexa i konsekwentną zdolnością Siriego do podejmowania kolejnych zadań (i coraz bardziej podstępnych), wielu zastanawia się: co dalej z rozumieniem języka naturalnego i konwersacyjnymi interfejsami głosowymi?

W tym wyścigu jest kilka firm z szyją. Jest Wit.ai, firma nabyła Facebooka - możesz bawić się demo. (Spróbuj tego polecenia: „Chcę oglądać koty.”) Apple ma swój HomeKit i wraz z nim robi to, co Apple robi najlepiej - kopiąc dupę. Amazon jest także na czele z Echo i Echo Dot wyposażonymi w Alexę.

Jedną z firm na tropie rozumienia języka naturalnego jest MindMeld. MindMeld zapewnia możliwości rozumienia języka naturalnego innym firmom, które chcą dodać inteligentne interfejsy głosowe do swoich produktów, usług lub urządzeń. Firma z siedzibą w San Francisco zapewnia partnerom infrastrukturę i opcje dostosowywania, dzięki czemu ich urządzenia mogą mieć własne, dopracowane asystenty osobiste. MindMeld ogłosił niedawno taką współpracę z Spotify, ale współpracuje również z firmami motoryzacyjnymi, agencjami obronnymi, firmami handlu elektronicznego i innymi. (I oczywiście nie jest w stanie podzielić się wieloma szczegółami takich partnerstw).

Odwrotność rozmawiał z Samem Vasishtem z MindMeld o stanie pola rozpoznawania głosu - ale szybko zauważył, że „rozpoznawanie głosu”, jako przedsięwzięcie, jest teraz „przyziemnym tematem”. W dzisiejszych czasach chodzi o „zrozumienie języka naturalnego. „Rozpoznawanie głosu prawie osiągnęło zenit: po 50 latach rozwoju AI mogą teraz skutecznie rozpoznawać mowę. Systemy te są prawie lepsze niż ludzie w pracy i z pewnością wkrótce przewyższą zwykłych śmiertelników.

Przewidywalnym następnym krokiem, a następnie - podobnie jak rozwój dziecka - jest nauczenie tych systemów Rozumiesz język, który mogą teraz rozpoznać. „Ten człowiek mówi słowami; to są słowa ”, jest dalekie od„ rozumiem to, co mówi ten człowiek; pozwól mi pomóc. ”

I ten dalszy krok i rozwój wymaga interpretacji znaczenie: Naśladowanie sposobu, w jaki ludzki umysł przetwarza informacje werbalne. To równanie składa się z dwóch części. Pierwszy jest zamierzony: jaki jest cel lub pragnienie człowieka w wypowiadaniu tego zdania? Komputer, który potrafi wydobyć intencję z wypowiedzi mówionej, może „zrozumieć”, na co człowiek chce wpłynąć x lub wchodzić w interakcje y. Z tym procesem wiąże się druga część równania: Entity. A.I. musi wiedzieć, jak określić podmiot, do którego się odnosi, przedmiot intencji człowieka.

Aby to zrobić, MindMeld nie zatrudnia filozofów (jak przypuszczałem lub miałem nadzieję). Zatrudnia ekspertów w dziedzinie języka naturalnego, ale większość A.I. Proces „uczenia się” sam w sobie jest stosunkowo prosty. Jeśli uczysz system rozumienia zamówień na kawę, musisz pokazać systemowi różne sposoby, aby ludzie mogli zamówić kawę.

„Chciałbym mokkę”.

„Czy mogę prosić o filiżankę Joe?”

„Tylko dla mnie duża kawa”.

I tu przychodzą eksperci od języków naturalnych - lingwiści. Ale nawet to nie jest już konieczne, ponieważ możemy gromadzić dane. Narzędzia te umożliwiają zadawanie tysiącom ludzi tego samego pytania i kompilowanie ich odpowiedzi. Następnie wystarczy przekazać te odpowiedzi do A.I. voila: A.I. może zareagować na szeroki zakres możliwych zapytań. „Z tysięcy zapytań możemy teraz po prostu dowiedzieć się, jak generowane są miliardy innych zapytań” - mówi Vasisht.

Odwrotność zapytał Vasisht, który od dawna jest wtajemniczonym w A.I. i rozumienie języka naturalnego, aby spekulować dla nas.

Czy MindMeld może uczestniczyć w rozszerzonym dialogu? Na przykład, jeśli zadam pytanie uzupełniające, czy A.I. rozumiesz i reagujesz?

Tak. To jest część projektu. Jeśli ktoś zada pytanie, które jest niekompletne - na przykład, jeśli zamawiam kawę, a nie określam rozmiaru kawy, którą chcę, wróci i powie: „Jakiej wielkości kawa zrobisz? chcieć?"

Czy spodziewasz się postępu w teście Turinga?

Myślę, że jesteśmy blisko tego. To znaczy, zrobił to IBM Watson Niebezpieczeństwo! i myślę, że to był naprawdę dobry przykład. Jesteśmy w tym momencie: jest bardzo blisko. Tak jak teraz, pod względem rozpoznawania mowy jesteśmy w punkcie, w którym maszyny są tak dobre jak ludzie, myślę, że będziemy - z pewnością w ciągu najbliższych trzech do pięciu lat - być w punkcie, w którym większość z tych rozmów systemy będą uważane za tak dobre jak ludzie.

Jakie rzeczy z automatyki domowej robi MindMeld?

Możemy zastosować naszą technologię do każdego rodzaju produktu, dowolnego rodzaju usługi, dowolnego rodzaju domeny danych. Automatyka domowa jest jedną z nich. W domu masz sterowanie oświetleniem, termostat, systemy bezpieczeństwa, systemy audio, systemy wideo, wszystkie te rzeczy. Jesteśmy w stanie kontrolować dowolny system pod warunkiem, że istnieje odpowiedni interfejs.

Czego chcesz, byś mógł dołączyć do MindMeld we własnym domu?

Sądzę, że bardziej zaawansowane przypadki użycia - takie jak rozmowa z Spotify, aby powiedzieć „Zagraj w playlistę Rolling Stones” lub „Zagraj w muzykę klasyczną tego wieczoru” - takie rzeczy byłyby… niesamowite.

Czy masz coś bardziej nieoczekiwanego lub nieszablonowego, którym chciałbyś sterować swoim głosem?

Rzeczy, które ci opisałem, są rzeczami, które uważam za nieuchronne. Innymi słowy, nastąpi to bardzo szybko. Myślę, że to, co nie wydarzy się od razu, to takie rzeczy jak kuchenki mikrofalowe, ekspresy do kawy i lodówki. Kontrolowanie tego rodzaju urządzeń - więc mogę powiedzieć: „Czy mój ekspres do kawy jest gotowy do parzenia kawy? Włącz ekspres do kawy ”, a jeśli nie został przygotowany, powinien wrócić i powiedzieć„ Przykro mi, ale twój ekspres do kawy nie jest gotowy ”- ten rodzaj inteligencji jeszcze nie istnieje. To będzie święty Graal: Gdzie w zasadzie każde urządzenie może do ciebie mówić i powiedzieć, co może, a czego nie może zrobić. Ale jeszcze tam nie jesteśmy.

Jak myślisz, co powstrzymuje branżę?

Są to wyjątkowo tanie urządzenia. To są urządzenia, które można kupić prawie za nic. Dziesięć lat temu kosztują znacznie więcej.Budowanie nowych funkcji zwiększa koszty tych urządzeń. Ostatecznie propozycja wartości bieżącej jest bardzo silna; większość z tych producentów nie jest skłonna do dodawania nowych funkcji, chyba że są one w bardzo niskiej cenie.

Myślę, że to jeden z aspektów. Innym aspektem jest to, że mówimy o podłączeniu tych urządzeń. Aby połączyć te urządzenia, musi istnieć coś więcej niż tylko przypadek użycia głosu. Musi istnieć więcej możliwości, które muszą jeździć na tym połączeniu, zanim staną się opłacalne.

Czy znasz jakąś firmę, która pracuje na tej drugiej zdolności?

Wiele firm półprzewodnikowych pracuje nad bardzo tanimi macierzami mikrofonowymi. Takie rzeczy, które można w zasadzie osadzić - bardzo niskim kosztem, na prawie każdym urządzeniu lub aplikacji - które pozwoliłyby na wejście głosowe. I nie musisz stać obok tych urządzeń - możesz rozmawiać z odległości 10 stóp. Budowanie tej możliwości - myślę, że to punkt wyjścia. I myślę, że pozwoli to ludziom na rozpoczęcie umieszczania mikrofonów na urządzeniach, a następnie na innych zaawansowanych możliwościach. Ale w tej chwili nie znam żadnej firmy, która buduje tego rodzaju inteligentny ekspres do kawy, inteligentną kuchenkę mikrofalową lub pralkę.

Jaki jest Twój najlepszy szacunek, gdy mamy w pełni inteligentne domy, w pełni inteligentne apartamenty?

Obecnie mamy prawie wszystkie niezbędne podsystemy w domu, które ludzie chcą zautomatyzować, które można zautomatyzować. Obejmuje to światła, termostaty, systemy bezpieczeństwa, drzwi garażowe, zamki do drzwi przednich - takie rzeczy. Wszystkie te rzeczy można zrobić. Problem dotyczy w rzeczywistości punktów cenowych. Są one nadal w cenie, gdzie są głównie początkujący i ludzie, którzy naprawdę ich potrzebują. Ale ceny na tych rzeczach gwałtownie spadają, bardzo szybko. Myślę, że prawdopodobnie podsystemy te zostaną wprowadzone na rynek masowy w ciągu najbliższych kilku lat.

O innych rzeczach, o których mówiłem - automatyzacji bardzo tanich urządzeń - myślę, że są to prawdopodobnie najwcześniej od pięciu do siedmiu lat. Jeszcze 10 lat, zanim staną się rzeczywistością. Ale, jak powiedziałem wcześniej, są to rzeczy, które będą wymagały wielu innych rzeczy. I może się to zdarzyć wcześniej, jeśli te różne składniki połączą się wcześniej.

Jak myślisz, jak wyglądałoby mieszkanie w Nowym Jorku lub San Francisco, powiedzmy, w 2050 roku?

2050! Łał. Myślę, że będziemy tam w pełni. Rzeczy, które widzimy w filmach science-fiction - gdzie można praktycznie rozmawiać z każdym systemem w domu i kontrolować wszystko głosem - myślę, że te możliwości będą powszechne. Z pewnością w miastach takich jak Nowy Jork i San Francisco.

Co się dzieje, gdy rozpoznawanie twarzy jest używane na ptakach? Nauka wyjaśnia

Technologie rozpoznawania twarzy stosowane przez firmy takie jak Apple, Facebook i Google przyciągają uwagę opinii publicznej. Jeden informatyk połączył swoją pasję do techniki z miłością do ptaków. Czy te techniki uczenia maszynowego mogą odróżniać poszczególne dzięcioły?

Czym jest ekonomia poznawcza? Zrozumienie świata poprzez nowe typy danych

Ekonomia to nie tylko gra liczbowa. Ludzka irracjonalność jest tak nierozerwalnie związana z ludzką potrzebą racjonalizacji, że decyzje finansowe są często podejmowane, gdy nasze świadome mózgi są trzymane za okup przez nasze emocje. Z tego powodu badanie pieniędzy ma specyficzne gałęzie poświęcone badaniu Homo sapiens ...

Jak Uber wykorzystuje rozpoznawanie twarzy, aby upewnić się, że Twój kierowca nie jest oszustem

Uber opracował funkcję, która wymagała od kierowców identyfikacji się z selfie przed aktywacją usługi i okresowym sprawdzaniem.

$config[ads_kvadrat] not found