Algorytm, który opanował „Pong” teraz doskonale w „Flappy Bird”, Still Single

$config[ads_kvadrat] not found

Лечение коронавируса на дому: алгоритм действий

Лечение коронавируса на дому: алгоритм действий
Anonim

Doskonalenie metody głębokiego uczenia się Pong, Space Invaders oraz inne gry Atari, student informatyki Uniwersytetu Stanforda Kevin Chen stworzył algorytm, który jest całkiem niezły w klasycznym przewijaczu bocznym 2014 Flappy Bird. Chen wykorzystał koncepcję znaną jako „q-learning”, w której agent dąży do poprawy wyniku nagrody za każdym powtórzeniem gry, aby udoskonalić niemal niemożliwą i niemożliwie uzależniającą grę.

Chen stworzył system, w którym jego algorytm został zoptymalizowany do poszukiwania trzech nagród: małej dodatniej nagrody za każdą klatkę, która pozostała przy życiu, dużej nagrody za przejście przez rurę i równie dużej (ale ujemnej) nagrody za śmierć. Tak zmotywowana tak zwana sieć deep-q może ograć ludzi, wynika z raportu Chen: „Udało nam się zagrać w tę grę Flappy Bird ucząc się bezpośrednio od pikseli i wyniku, osiągając super-ludzkie wyniki. ”

Oryginalny papier Atari, opublikowany w 2015 r. W Natura, pochodzi z firmy DeepMind należącej do Google (obecnie słynącej z opanowania starożytnej chińskiej gry planszowej Go). Osiągnięcie DeepMind było przełomowe, ponieważ wymagało informacji wizualnych - przynajmniej pikselowych - i przy minimalnym nakładzie było w stanie zmaksymalizować nagrody. Taki system nagrody został porównany do odpowiedzi dopaminergicznej mózgu, po prostu uproszczony.

Nie po raz pierwszy algorytm pokonał trzepoczącego ptaka: wcześniejsza klasa studentów informatyki Uniwersytetu Stanforda stworzyła program, który po nocnym treningu poprawił wynik z 0 rur do 1600.

$config[ads_kvadrat] not found