Reinforcement learning 1000-318bRL
1. Metody bezmodelowe
a) Formalizm uczenia ze wzmocnieniem: procesy decyzyjne Markowa (MDP) & programowanie dynamiczne (DP)
b) Metody oparte na wartościach
* SARSA i TD(1)
* kompromis pomiędzy stronniczością i wariancją oraz TD(lambda)
* aproksymatory funkcji i związane z tym wyzwania
c) Metody gradiantu polityki
* Proste gradienty polityki
* Uogólniony estymator przewagi (GAE)
* Problemy związane z metodami gradientu polityki
d) Metody typu aktor-krytyk
* Optymalizacja polityki z użyciem regionów zaufania (TRPO)
* Optymalizacja bliskiej polityki (PPO)
* Algorytm stonowany aktor-krytyk (SAC)
2. Metody z użyciem modelu
a) Szacowanie modelu
b) Planowanie
* Ciągłe i dyskretne problemy sterowania
* Przeszukiwanie drzew Monte-Carlo
* Alfa-zero
3. Przeszukiwania
a) Model wielorękiego bandyty
b) Strategie przeszukiwania związane z niepewnością
4. Tematy badawcze
5. Wystąpienia praktyków.
Rodzaj przedmiotu
Założenia (lista przedmiotów)
Koordynatorzy przedmiotu
Efekty kształcenia
Wiedza: student zna i rozumie
* własności algorytmów uczenia ze wzmocnieniem, wie kiedy które zastosować i jak zaimplementować najważniejsze z nich ze szczególnym uwzględnieniem klasy algorytmów opartych na gradiencie polityki, z klasy opartych na wartości oraz z klasy aktor-krytyk [K_W14].
Umiejętności: student potrafi
* odpowiednio stosować metody w celu opracowania dedykowanego algorytmu uczenia ze wzmocnieniem lub stosować istniejące metody w swoich projektach badawczych. [K_U17]
* implementować własne algorytmy i używać istniejące biblioteki oferujące procedury uczenia ze wzmocnieniem. [K_U18]
Kompetencje społeczne: student jest gotów do
* krytycznej oceny posiadanej wiedzy i odbieranych treści [K_K01];
* uznawania znaczenia wiedzy w rozwiązywaniu problemów poznawczych i praktycznych oraz zasięgania opinii ekspertów w przypadku trudności z samodzielnym rozwiązaniem problemu [K_K02];
* myślenia i działania w sposób przedsiębiorczy [K_K03].
Kryteria oceniania
Egzamin i projekt.
Literatura
R. Sutton, G. Barto, Reinforcement Learning: An Introduction
Francois-Lavet, F., Henderson P., Islam R., Bellemare M. G., Pineau J.,, An Introduction to Deep Reinforcement Learning.
Szepesvari, C., Algorithms for Reinforcement Learning
Więcej informacji
Więcej informacji o poziomie przedmiotu, roku studiów (i/lub semestrze) w którym się odbywa, o rodzaju i liczbie godzin zajęć - szukaj w planach studiów odpowiednich programów. Ten przedmiot jest związany z programami:
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: