Uczenie ze wzmocnieniem (wspólnie z 1000-318bRL) 1000-2M20UZW

1. Metody bezmodelowe
a) Formalizm uczenia ze wzmocnieniem: procesy decyzyjne Markowa (MDP) & programowanie dynamiczne (DP)
b) Metody oparte na wartościach\
* SARSA i TD(1)
* kompromis pomiędzy stronniczością i warianacją oraz TD(lambda)
* aproksymatory funkcji i związane z tym wyzwania
c) Metody gradiantu polityki
* Proste gradienty polityki
* Uogólniony estymator przewagi (GAE)
* Problemy związane z metodami gradientu polityki
d) Metody typu aktor-krytyk
* Optymalizacja polityki z użyciem regionów zaufania (TRPO)
* Optymalizacja bliskiej polityki (PPO)
* Algorytm stonowany aktor-krytyk (SAC)
2. Metody z użyciem modelu
a) Szacowanie modelu
b) Planowanie
* Ciągłe i dyskretne problemy sterowania
* Przeszukiwanie drzew Monte-Carlo
* Alfa-zero
3. Przeszukiwania
a) Model wielorękiego bandyty
b) Strategie przeszukiwania związane z niepewnością
4. Tematy badawcze
5. Wystąpienia praktyków

Rodzaj przedmiotu

monograficzne

Efekty kształcenia

Wiedza

* Student zna matematyczne sformułowanie uczenia ze wzmocnieniem, które pozwala na opracowywanie efektywnych algorytów uczenia ze wzmocnieniem oraz na analizę istniejących rozwiązań
* Student rozumie podstawowe części składowe algorytów uczenia ze wzmocnieniem i wie, jak ze sobą współdziałają.
* Student wie, kiedy zastosować i jak zaimplementować najważniejsze algorytmy uczenia ze wzmocnieniem z klasy opartych na gradiencie polityki, z klasy opartych na wartości oraz z klasy aktor-krytyk.
* Student ma podstawową wiedzę na temat popularnych bibliotek uczenia ze wzmocnieniem.

Umiejętności

* Student umie opracowywać efektywne alogorytmy i je testować.
* Student umie rozróżniać problemy uczenia ze wzmocnieniem oraz oceniać ich trudność.
* Student umie odpowiednio stosować metody w celu opracowania dedykowanego algorytmu lub stosować istniejące metody w swoich projektach badawczych.
* Student umie implementować własne algorytmy i używać istniejące biblioteki oferujące procedury uczenia ze wzmocnieniem.
* Student umie testować zaimplementowane algorytmy.
* Student umie wykorzystywać informacje zawarte w publikacjach naukowych.

Kompetencje społeczne

* Student zna ograniczenia swojej wiedzy z zakresu uczenia ze wzmocnieniem i zdaje sobie sprawę z konieczności ciągłego zdobywania wiedzy.
* Student rozumie potrzebę systematycznej pracy i terminowości w oddawaniu jej wyników.
* Student rozumie i docenia wagę intelektualnej uczciwości w korzystaniu z oprogramowania innych osób. Zachowuje się etycznie w trakcie implementacji projektów algorytmicznych.
* Student jest zdolny do niezależnego poszukiwania i wykorzystywania różnych rodzajów informacji na temat algorytmów, w tym też w językach obcych.

Kryteria oceniania

Obecność i projekt.

Literatura

R. Sutton, G. Barto, Reinforcement Learning: An Introduction
Francois-Lavet, F., Henderson P., Islam R., Bellemare M. G., Pineau J.,, An Introduction to Deep Reinforcement Learning.
Szepesvari, C., Algorithms for Reinforcement Learning

Więcej informacji

Więcej informacji o poziomie przedmiotu, roku studiów (i/lub semestrze) w którym się odbywa, o rodzaju i liczbie godzin zajęć - szukaj w planach studiów odpowiednich programów. Ten przedmiot jest związany z programami: