Uczenie maszynowe nienadzorowane 2400-ZEWW1004
Uczenie maszynowe nienadzorowane (unsupervised learning) to grupa metod porządkująca dane – w grupy, w inną liczbę wymiarów, w relacje. Uczenie nienadzorowane jest skoncentrowane na eksploracji struktury danych, przy czym klasyfikacja lub kategoryzacja nie są zawarte w obserwacjach, a są wynikiem działania tych metod. Kurs jest oparty na trzech blokach tematycznych: 1) klastrowanie (clustering), 2) redukcja wymiarów (dimension reduction) oraz 3) reguły asocjacyjne (association rule learning). W ramach zajęć omówione zostaną aspekty teoretyczne i praktyczne uczenia nienadzorowanego. Kurs jest prowadzony w programie R. W ramach każdego bloku tematycznego realizowane będą cztery etapy: a) wprowadzenie do tematu i „ręczna” konstrukcja podstawowego algorytmu, b) zapoznanie się z dostępnymi pakietami i komendami w R, ich porównanie i ocena, c) praca z najnowszą literaturą tematu, d) projekt grupowy. Celem każdego bloku jest przedstawienie szczegółowych mechanizmów jak omawiane metody działają, jakiego wyniku można oczekiwać, jakie są ich wady i zalety, a także jakie są relacje między metodami.
BLOK 1: Klastrowanie
Przedstawione zostanie poszukiwanie grup danych przez klastrowanie (zwane także analizą skupień). Zaprezentowane zostaną metody klastrowania w oparciu o odległość (distance-based): metoda k-średnich (k-means), algorytmy PAM (Partitioning Around Medoids) i CLARA (Clustering Large Applications) oraz metody hierarchiczne. Przedstawione zostaną metody wyznaczania optymalnej liczby klastrów (m.in. CH index, Silhouette index) wraz ich miarami zgodności (agreement indices) jak Rand Index czy Jaccard Similarity, a także metody klasyfikacji nowych obserwacji do wyodrębnionych grup i sposoby wizualizacji. Dodatkowo przedstawiony zostanie algorytm DBSCAN, który dotyczy klastrowania gęstościowego.
BLOK 2: Redukcja wymiarów
Przedstawione zostaną metody reprezentacji zbiorów danych w mniejszej niż oryginalna liczbie wymiarów. Będą to dwie podstawowe metody: analiza głównych składowych (Principal Component Analysis, PCA), oraz skalowanie wielowymiarowe (multidimensional scaling, MDS) (w wersji metrycznej i niemetrycznej). Pokazane zostaną wersje podstawowe jak i zaawansowane tych algorytmów, metody diagnostyki jakości wyniku i metody wizualizacji wyniku.
BLOK 3: Reguły asocjacyjne
Blok przedstawia metody poszukiwania typowych powiązań między elementami zbioru danych - reguły asocjacyjne (association rules), zwane także analizą koszykową (market basket analysis). Przedstawione zostaną główne algorytmy reguł asocjacyjnych – Apriori i Eclat. Ich zastosowanie dotyczy przede wszystkim danych transakcyjnych i poszukiwania reguł najczęściej występujących wspólnie produktów w koszyku. Przedstawione zostaną główne miary dla transakcji i reguł (m.in. wsparcie /support/, pewność /confidence/, lift), sposoby czyszczenia reguł, wizualizacji, masowego przeszukiwania, interaktywnej prezentacji wyniku. Pokazane zostaną także metody dyskretyzacji danych ciągłych w celu zastosowania metod do danych ciągłych.
W całym kursie wykorzystane zostaną przykłady danych ekonomicznych, jak również dane graficzne (zdjęcia).
Szacunkowy nakład pracy studenta: ECTS x 25h = 0h
(K) - godziny kontaktowe (S) - godziny pracy samodzielnej
wykład (zajęcia): 30h (K) 0h (S)
ćwiczenia (zajęcia): 0h (K) 0h (S)
egzamin: 0h (K) 25h (S)
konsultacje: 5h (K) 0h (S)
przygotowanie do ćwiczeń: 0h (K) 0h (S)
przygotowanie do wykładów: 0h (K) 0h (S)
przygotowanie do kolokwium: 0h (K) 0h (S)
przygotowanie do egzaminu: 0h (K) 30h (S)
…: 0h (K) 0h (S)
Razem: 35h (K) + 55h (S) = 90h
Rodzaj przedmiotu
Koordynatorzy przedmiotu
Efekty kształcenia
Po ukończeniu kursu student:
- przeprowadza krytyczną analizę zjawisk i procesów gospodarczych i społecznych
- dokonuje selektywnego wyboru literatury i argumentów, na podstawie których prowadzi własne badania
- samodzielnie gromadzi i analizuje dane
Kryteria oceniania
) Końcowa praca analityczna w RPubs dla każdego bloku tematycznego (przygotowana samodzielnie) z wykorzystaniem metod przedstawionych podczas zajęć – po 30% dla każdej z trzech prac
2) Prezentacja ustna przydzielonego artykułu naukowego (w trakcie zajęć) – 10%.
Literatura
1] James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning (Vol. 112, No. 1). New York: springer. Otwarty dostęp: https://www.statlearning.com/
[2] Szeliga, M. (2017). Data Science i uczenie maszynowe. Wydawnictwo Naukowe PWN.
[3] Artykuły naukowe w języku angielskim wskazane przez prowadzącego.
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: