EITC/AI/ARL Advanced Reinforcement Learning to europejski program certyfikacji IT dotyczący podejścia DeepMind do uczenia się przez wzmacnianie w sztucznej inteligencji.
Program nauczania EITC/AI/ARL Advanced Reinforcement Learning koncentruje się na aspektach teoretycznych i praktycznych umiejętnościach technik uczenia się przez wzmacnianie z perspektywy DeepMind, zorganizowanych w ramach następującej struktury, obejmującej obszerne treści dydaktyczne wideo jako punkt odniesienia dla tego Certyfikatu EITC.
Uczenie się ze wzmocnieniem (RL) to obszar uczenia maszynowego dotyczący tego, jak inteligentni agenci powinni podejmować działania w środowisku, aby zmaksymalizować pojęcie skumulowanej nagrody. Uczenie się ze wzmocnieniem jest jednym z trzech podstawowych paradygmatów uczenia maszynowego, obok uczenia się nadzorowanego i uczenia się bez nadzoru.
Uczenie się ze wzmocnieniem różni się od uczenia nadzorowanego tym, że nie ma potrzeby przedstawiania oznaczonych par wejście/wyjście oraz nie wymaga nieoptymalnych działań, które mają być wyraźnie korygowane. Zamiast tego skupiamy się na znalezieniu równowagi między eksploracją (niezbadanego terytorium) a eksploatacją (aktualnej wiedzy).
Środowisko jest zwykle przedstawiane w postaci procesu decyzyjnego Markowa (MDP), ponieważ wiele algorytmów uczenia się ze wzmocnieniem dla tego kontekstu wykorzystuje techniki programowania dynamicznego. Główna różnica między klasycznymi metodami programowania dynamicznego a algorytmami uczenia się ze wzmocnieniem polega na tym, że te ostatnie nie zakładają znajomości dokładnego modelu matematycznego MDP i są ukierunkowane na duże MDP, w których dokładne metody stają się niewykonalne.
Ze względu na swoją ogólność uczenie się przez wzmacnianie jest badane w wielu dyscyplinach, takich jak teoria gier, teoria sterowania, badania operacyjne, teoria informacji, optymalizacja oparta na symulacji, systemy wieloagentowe, inteligencja roju i statystyka. W literaturze poświęconej badaniom operacyjnym i kontroli uczenie się przez wzmacnianie nazywa się przybliżonym programowaniem dynamicznym lub programowaniem neuro-dynamicznym. Zagadnienia związane z uczeniem się ze wzmocnieniem były również badane w teorii sterowania optymalnego, która dotyczy głównie istnienia i charakterystyki rozwiązań optymalnych oraz algorytmów ich dokładnego obliczania, a mniej uczenia się lub aproksymacji, zwłaszcza przy braku matematyczny model środowiska. W ekonomii i teorii gier uczenie się przez wzmacnianie można wykorzystać do wyjaśnienia, w jaki sposób równowaga może powstać w ograniczonej racjonalności.
Zbrojenie podstawowe jest modelowane jako proces decyzyjny Markowa (MDP). W matematyce proces decyzyjny Markowa (MDP) jest stochastycznym procesem sterowania w czasie dyskretnym. Zapewnia matematyczne ramy modelowania procesu podejmowania decyzji w sytuacjach, w których wyniki są częściowo losowe, a częściowo kontrolowane przez decydenta. MDP są przydatne do badania problemów optymalizacji rozwiązanych za pomocą programowania dynamicznego. MDP były znane co najmniej już w latach pięćdziesiątych XX wieku. Podstawowy zbiór badań nad procesami decyzyjnymi Markowa wynikał z książki Ronalda Howarda z 1950 roku, Dynamic Programming and Markov Processes. Znajdują zastosowanie w wielu dyscyplinach, między innymi w robotyce, automatyce, ekonomii i produkcji. Nazwa MDP pochodzi od rosyjskiego matematyka Andrieja Markowa, ponieważ są one przedłużeniem łańcuchów Markowa.
Na każdym etapie proces znajduje się w jakimś stanie S, a decydent może wybrać dowolną akcję a dostępną w stanie S. Proces odpowiada w następnym kroku, losowo przechodząc do nowego stanu S 'i nadając decydentowi odpowiednią nagrodę Ra (S, S ').
Prawdopodobieństwo przejścia procesu do nowego stanu S 'zależy od wybranego działania a. W szczególności jest ona określona przez funkcję przejścia stanu Pa (S, S '). Zatem następny stan S 'zależy od obecnego stanu S i działania decydenta a. Ale biorąc pod uwagę S i a, jest warunkowo niezależny od wszystkich poprzednich stanów i działań. Innymi słowy, przejścia stanu MDP spełniają właściwość Markowa.
Procesy decyzyjne Markowa są przedłużeniem łańcuchów Markowa; różnica polega na dodaniu działań (pozwalających na wybór) i nagród (dających motywację). I odwrotnie, jeśli istnieje tylko jedno działanie dla każdego stanu (np. „Czekaj”) i wszystkie nagrody są takie same (np. „Zero”), proces decyzyjny Markowa sprowadza się do łańcucha Markowa.
Agent uczący się wzmacniania oddziałuje ze swoim otoczeniem w dyskretnych krokach czasowych. Za każdym razem, gdy t, agent otrzymuje aktualny stan S (t) i nagrodę r (t). Następnie wybiera akcję a (t) z zestawu dostępnych akcji, która jest następnie wysyłana do środowiska. Środowisko przechodzi do nowego stanu S (t + 1) i określana jest nagroda r (t + 1) związana z przejściem. Celem agenta uczenia się przez wzmacnianie jest nauczenie się polityki, która maksymalizuje oczekiwaną skumulowaną nagrodę.
Sformułowanie problemu jako MDP zakłada, że agent bezpośrednio obserwuje aktualny stan środowiska. W tym przypadku mówi się, że problem ma pełną obserwowalność. Jeśli agent ma dostęp tylko do podzbioru stanów lub jeśli obserwowane stany są zniekształcone przez szum, mówi się, że agent ma częściową obserwowalność i formalnie problem musi być sformułowany jako częściowo obserwowalny proces decyzyjny Markowa. W obu przypadkach zestaw działań dostępnych dla agenta można ograniczyć. Na przykład stan salda konta można ograniczyć do dodatniego; jeśli aktualna wartość stanu wynosi 3, a zmiana stanu próbuje zmniejszyć wartość o 4, przejście nie będzie dozwolone.
Kiedy porównuje się wydajność agenta z działaniem agenta, który działa optymalnie, różnica w wydajności rodzi poczucie żalu. Aby działać prawie optymalnie, agent musi wnioskować o długoterminowych konsekwencjach swoich działań (tj. Maksymalizować przyszłe dochody), chociaż natychmiastowa nagroda z tym związana może być negatywna.
Zatem uczenie się przez wzmacnianie jest szczególnie dobrze dostosowane do problemów, które obejmują długoterminową i krótkoterminową wymianę nagrody. Został z powodzeniem zastosowany do różnych problemów, w tym sterowania robotami, planowania wind, telekomunikacji, tryktraka, warcabów i Go (AlphaGo).
Dwa elementy sprawiają, że uczenie się przez wzmacnianie jest potężne: użycie próbek do optymalizacji wydajności oraz wykorzystanie przybliżenia funkcji do radzenia sobie w dużych środowiskach. Dzięki tym dwóm kluczowym komponentom uczenie się ze wzmocnieniem może być wykorzystywane w dużych środowiskach w następujących sytuacjach:
- Model środowiska jest znany, ale rozwiązanie analityczne nie jest dostępne.
- Podano tylko model symulacyjny środowiska (przedmiot optymalizacji opartej na symulacji).
- Jedynym sposobem na zebranie informacji o środowisku jest interakcja z nim.
Pierwsze dwa z tych problemów można uznać za problemy planowania (ponieważ dostępna jest jakaś forma modelu), podczas gdy ostatni z nich można uznać za prawdziwy problem dotyczący uczenia się. Jednak uczenie się ze wzmocnieniem przekształca oba problemy związane z planowaniem w problemy związane z uczeniem maszynowym.
Kompromis między eksploracją a eksploatacją został najdokładniej zbadany poprzez problem wielorękich bandytów i MDP o ograniczonej przestrzeni państwowej w Burnetas i Katehakis (1997).
Uczenie się ze wzmocnieniem wymaga sprytnych mechanizmów eksploracji; losowe wybieranie działań, bez odniesienia do szacowanego rozkładu prawdopodobieństwa, wykazuje słabe wyniki. Przypadek (małych) skończonych procesów decyzyjnych Markowa jest stosunkowo dobrze poznany. Jednak ze względu na brak algorytmów, które dobrze skalują się z liczbą stanów (lub skalują się do problemów z nieskończonymi przestrzeniami stanów), najbardziej praktyczne są proste metody eksploracji.
Nawet jeśli kwestia eksploracji jest pomijana i nawet jeśli stan był obserwowalny, pozostaje problemem wykorzystanie przeszłych doświadczeń, aby dowiedzieć się, które działania prowadzą do wyższych skumulowanych nagród.
Aby dokładnie zapoznać się z programem certyfikacji, możesz rozwinąć i przeanalizować poniższą tabelę.
EITC/AI/ARL Advanced Reinforcement Learning Certification Curriculum odwołuje się do ogólnodostępnych materiałów dydaktycznych w formie wideo. Proces uczenia się podzielony jest na etapy (programy -> lekcje -> tematy) obejmujące odpowiednie części programu nauczania. Zapewnione są również nieograniczone konsultacje z ekspertami dziedzinowymi.
Aby uzyskać szczegółowe informacje na temat procedury certyfikacji, sprawdź Wygodna Subskrypcja.
Zasoby referencyjne dotyczące programów nauczania
Kontrola na poziomie ludzkim dzięki publikacji Deep Reinforcement Learning
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Otwarty kurs na temat uczenia się przez głębokie wzmocnienie w UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL zastosowany do problemu bandytów z ramionami K z Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Pobierz kompletne materiały przygotowawcze do samodzielnego uczenia się offline dla programu EITC/AI/ARL Advanced Reinforcement Learning w pliku PDF
Materiały przygotowawcze EITC/AI/ARL – wersja standardowa
Materiały przygotowawcze EITC/AI/ARL – wersja rozszerzona z pytaniami kontrolnymi