Deep „Reinforcement Learning” to nauczanie nowych umiejętności robotów szybciej niż kiedykolwiek

$config[ads_kvadrat] not found

Lecture 5: Jonathan Hunt - Deep reinforcement learning for robotic control

Lecture 5: Jonathan Hunt - Deep reinforcement learning for robotic control
Anonim

Roboty uczą się, jak wykonywać zadania w przyspieszonych wirtualnych światach, rozwijając umiejętności w ciągu kilku godzin, które w przeciwnym razie mogłyby zająć miesiące. Symulowane uczenie się z głębokim wzmocnieniem (lub Deep RL) oznacza umiejętność, która normalnie zajęłaby 55 dni w przypadku A.I. Uczenie się w prawdziwym świecie zajmuje tylko jeden dzień w hiper-przyspieszonej klasie.

„Ma potencjał, by naprawdę zrewolucjonizować to, co możemy zrobić w dziedzinie robotyki”, powiedziała Raia Hadsell, naukowiec z Google DeepMind, podczas Re-Work Deep Learning Summit w Londynie w czwartek. „Możemy nauczyć się umiejętności na poziomie ludzkim”.

Może się to wydawać sprzeczne z intuicją, ponieważ z całą pewnością chodzi o to, że programiści mogą uczyć ich robienia rzeczy, prawda? Jednak podczas projektowania maszyny działającej w świecie rzeczywistym roboty potrzebują wielu danych, aby zrozumieć, jak wykonać zadanie w nieznanej sytuacji. A.I. może użyć tych danych, aby „nauczyć się” umiejętności opartej na wszystkich wcześniejszych przypadkach.

Uczenie się z głębokim wzmocnieniem gromadzi te dane w podobny sposób, w jaki ludzie uczą się: robot wykona zadanie wielokrotnie, jak łapanie piłki, i zapisuje dane, aby stworzyć obraz tego, jak najlepiej złapać piłkę w nowej sytuacji. Kiedy DeepMind użył tego modelu w 2013 r., Aby nauczyć robota, jak opanować gry Atari, po prostu usiąść przed ekranem i powiedzieć, że jest to cel końcowy, społeczność naukowa to uwielbiała.

Problem polega na tym, że trwa to wiecznie. Musisz wielokrotnie rzucać piłkami w robota lub w przypadku Atari, zostawić robota sam na chwilę w swojej sypialni. Uruchamianie symulacji MuJoCo w połączeniu z progresywną siecią neuronową, trenerzy mogą uruchamiać program, który naśladuje robota, przenosi wyuczone zachowania do robota i odwzorowuje ruchy wirtualne na rzeczywisty świat.

„Możemy uruchomić te symulatory przez cały dzień i całą noc” - powiedział Hadsell.

Wyniki mówią same za siebie. Ten robot, który zdobył dyplom w łapaniu, może teraz śledzić wirtualne piłki, jakby były prawdziwe, przygotowując je do wielkiego dnia, kiedy jest proszony o złapanie prawdziwej piłki:

$config[ads_kvadrat] not found