Unsupervised Learning 2400-DS1UL
Celem przedmiotu jest zapoznanie słuchaczy z możliwościami algorytmów odkrywania wiedzy z danych (Knowledge Discovery in Databases, KDD) i możliwość ich wykorzystania w analityce biznesowej.
Realizowane będą trzy bloki tematyczne: 1) klastrowanie, 2) redukcja wymiarów, 3) reguły asocjacyjne.
W ramach każdego bloku tematycznego realizowane będą cztery etapy: a) wprowadzenie do tematu i „ręczna” konstrukcja podstawowego algorytmu, b) zapoznanie się z dostępnymi pakietami i komendami w R, ich porównanie i ocena, c) praca z najnowszą literaturą tematu, d) projekt grupowy.
BLOK 1: Klastrowanie (analiza skupień)
Przedstawione zostanie poszukiwanie grup danych przez klastrowanie. Zaprezentowane zostaną metody klastrowania w oparciu o odległość (distance-based), a także metody k-średnich (k-means), algorytmy PAM (Partitioning Around Medoids) i CLARA (Clustering Large Applications), CLARANS (Clustering Large Applications based on RANdomized Search) czy klastrowanie nieparametryczne lub metody hierarchiczne, uczenie słownikowe (dictionary learning), metody powiązań i metody probabilistyczne. Przedstawione zostaną metody wyznaczania optymalnej liczby klastrów (m.in. CH index, Silhouette index) wraz ich miarami zgodności (agreement indices).
BLOK 2: Redukcja wymiarów
Analiza głównych składowych przy wykorzystaniu metod principal component analysis (PCA), multidimensional scaling (w wersji metrycznej i klasycznej), jak i aktualnych metod nieliniowych stosowanych do redukcji wymiarów.
BLOK 3: Reguły asocjacyjne
Przedstawione zostaną główne algorytmy reguł asocjacyjnych (Apriori, Eclat, FP-growth, OPUS). Ich zastosowanie dotyczy przede wszystkim danych transakcyjnych (tzw. market basket analysis) i poszukiwania reguł najczęściej występujących wspólnie produktów w koszyku. Przedstawione zostaną główne miary dla transakcji i reguł (m.in. wsparcie /support/, pewność /confidence/, lift, różnica pewności /difference of condifence DOC/ etc.).
Realizowane będą modele dla danych rzeczywistych, wymagających przekształcenia i wyczyszczenia danych wejściowych. Przedstawione zostaną sposoby wizualizacji danych transakcyjnych dla transakcji, reguł i klastrów (w tym interaktywne), a także metody upraszczania obliczeń dla dużych zbiorów danych przez m.in. próbkowanie. Wykorzystane zostaną pakiety arules, arulesViz, stats, cluster, pdfCluster, clues i inne (zob. R TaskViews „Cluster” - Cluster Analysis & Finite Mixture Models).
Rodzaj przedmiotu
Koordynatorzy przedmiotu
Efekty kształcenia
- Student posiada wiedzę za zakresu uczenia nienadzorowanego
- Student jest zaznajomiony z narzędziami badawczymi uczenia nienadzorowanego
- Student potrafi analizować dane stosując podejście uczenia nienadzorowanego
- Student potrafi wykorzystać wiedzę z zakresu uczenia nienadzorowanego do prowadzenia własnych badań
- Student samodzielnie gromadzi, przetwarza i analizuje dane
- Student potrafi pracować w grupach projektowych
- Student potrafi formułować i wyrażać swoje poglądy w dyskusji
- Student wyraża ciekawość badawczą i otwartość w stosunku do analizy zjawisk o charakterze ekonomicznym
K_W01, K_U01, K_U02, K_U03, K_U04, K_U05, KS_01,
Kryteria oceniania
Oceniane będzie przygotowanie prac projektowych.
Literatura
Artykuły naukowe przedstawione przez prowadzących zajęcia (literatura tematu) oraz:
Bousquet, O.; von Luxburg, U.; Raetsch, G., eds. (2004). Advanced Lectures on Machine Learning. Springer-Verlag.
Duda, Richard O.; Hart, Peter E.; Stork, David G. (2001). "Unsupervised Learning and Clustering". Pattern classification (2nd ed.). Wiley.
Hastie, Trevor; Tibshirani, Robert (2009). The Elements of Statistical Learning: Data mining,Inference,and Prediction. New York: Springer
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: