Jak DeepMind opracował Eerily Self-Taught A.I. To może przechytrzyć ludzi

$config[ads_kvadrat] not found

Google's DeepMind AI Just Taught Itself To Walk

Google's DeepMind AI Just Taught Itself To Walk

Spisu treści:

Anonim

Komputery od kilkudziesięciu lat kopią nasze kruche ludzkie tyłki w szachy. Pierwszy raz zdarzyło się to w 1996 roku, kiedy Deep Blue firmy IBM zdołało pokonać mistrza świata Gary'ego Kasperova. Ale nowe badanie z A.I Alfabet. strój DeepMind rzuca światło na to, jak ograniczony był zakres wczesnego zwycięstwa.

Po pierwsze, Kasperov odskoczył z powrotem, wygrywając trzy mecze i dobierając dwa razy w sześciu playoffach, na starą Codzienne wiadomości raport.

Ale o wiele bardziej znaczący, jak twierdzi badacz DeepMind, Julian Schrittwieser Odwrotność Aplikacje takie jak Deep Blue były również programowane ręcznie. Oznacza to, że ludzie musieli uczyć A.I. wszystko, co potrzebne, by wiedzieć, jak radzić sobie z każdą możliwą sytuacją. Innymi słowy, może być zawsze tak dobre, jak ludzie, którzy to programowali. I chociaż Deep Blue najwyraźniej był w stanie całkiem dobrze grać w szachy; Daj mu kolejną, podobną grę, taką jak Go i nie miałoby to pojęcia.

Alpha Zero jest zupełnie inny. W nowym badaniu opublikowanym dzisiaj w czasopiśmie Nauka, autorzy ujawniają, w jaki sposób byli w stanie nie tylko nauczyć Alpha Zero, jak pokonać ludzi w szachach, ale jak nauczyć Alpha Zero, jak uczyć się opanować wiele gier.

Jak uczyć A.I. Nauczyć się

Alpha Zero zostało opracowane przy użyciu techniki zwanej głębokim uczeniem się wzmocnienia. Zasadniczo obejmuje to nauczanie A.I. coś bardzo prostego, jak podstawowe zasady gry w szachy, a następnie robienie tej prostej rzeczy w kółko, dopóki nie nauczy się bardziej skomplikowanych, interesujących rzeczy, takich jak strategie i techniki.

„Tradycyjnie… ludzie czerpią wiedzę na temat gry i próbują kodować ją w regułach”, mówi Schrittwieser, który pracuje nad Alphą Zero od prawie czterech lat. „Nasze podejście polega na tym, że inicjujemy losowo, a następnie pozwalamy mu grać przeciwko sobie, a dzięki tym grom może nauczyć się, jakie strategie działają”.

Wszystkie Alpha Zero to podstawowe zasady, a stamtąd uczy się, jak wygrywać, grając sam. Zgodnie z nowymi odkryciami, opanowanie gry w szachy zajęło tylko dziewięć godzin, aby opanować szachy Alpha Zero, a mistrzowi Shogi - 12 godzin. Ponieważ gra sama w sobie, jest w zasadzie samoukiem. Stało się to mieleniem wszystkich światowych mistrzów algorytmów kierowanych przez człowieka, pokonując mistrza świata 2017 w Shogi 91 procent czasu.

„Może samodzielnie odkryć interesującą wiedzę na temat gry”, mówi Schrittwieser. „Prowadzi to do programów, które grają bardziej jak ludzie”.

Chociaż jego styl jest podobny do człowieka i twórczy, jest on jednak prawdopodobnie optymalny, mówi, na tyle, że Alpha Zero powinna być w stanie dominować w niemal każdej grze, w której ma dostęp do wszystkich dostępnych informacji. W rzeczywistości Alpha Zero jest tak wyrafinowany, że możemy potrzebować przejść do zupełnie innej klasy gier, aby przekraczać granice tego, jak A.I. rozwiązuje problemy.

Dlaczego Alpa Zero jest tak dobra

A.I. Naukowcy uwielbiają używać tych gier jako podstawy do testowania coraz bardziej wyrafinowanych form algorytmów z kilku powodów. Są eleganckie, a ludzie grają w nie od setek lat, co oznacza, że ​​masz wielu potencjalnych pretendentów do przetestowania swojego algorytmu. Ale są też skomplikowane i skomplikowane, co oznacza, że ​​mogą służyć jako kamień milowy dla A.I. które mogą rozwiązać problemy w prawdziwym świecie. Schrittwieser twierdzi, że kolejnym obszarem badań jest stworzenie algorytmu takiego jak Alpha Zero, który może nadal podejmować optymalne decyzje z niedoskonałymi informacjami.

„We wszystkich tych grach wiesz wszystko, co się dzieje”, mówi. „W prawdziwym świecie możesz znać tylko część informacji. Możesz znać własne karty, ale nie znasz swojego przeciwnika, masz częściowe informacje ”.

Wciąż istnieje kilka gier planszowych, które mogą dawać algorytmy, takie jak Alpha Zero, tego rodzaju wyzwanie - Schrittwieser wspomniał Stratego, w którym gracze ukrywają swoje ruchy przed sobą - i Starcraft, który jest kolejnym obszarem zainteresowania badaczy skupionych na grach DeepMind.

„Chcemy, aby problemy, które rozwiązujemy, stawały się coraz bardziej złożone”, mówi. „Ale zawsze jest to jeden wymiar na raz”.

W tym samym czasie kolejna generacja skomputeryzowanych programów do rozwiązywania problemów Deep Mind już pokazuje potencjał przejścia ze świata gier do świata rzeczywistego. Na początku tego tygodnia ogłosił kolejny algorytm o nazwie AlphaFold, który jest w stanie ekstrapolować sekwencję białek na dokładną prognozę jej struktury 3D.Jest to problem, który jest oszołomiony przez naukowców od dziesięcioleci i może pomóc otworzyć drzwi do leczenia chorób od choroby Alzheimera po mukowiscydozę.

$config[ads_kvadrat] not found