Machine Learning 1: classification methods 2400-DS1ML1
1. Wprowadzenie do uczenia maszynowego
a. Czym jest, a czym nie jest uczenie maszynowe
b. Różnice między klasyfikacją, regresją i grupowaniem
c. wprowadzenie funkcji kosztu
d. Przykładowe metody parametryczne - regresja liniowa i regresja logistyczna
2. Pomiar skuteczności modelu, diagnostyka uczenia maszynowego
3. Miary jakości algorytmów uczenia nadzorowanego
a. (skuteczność modelu, pomiar błędu, tabela klasyfikacji i miary na niej oparte, krzywa ROC, AUC, RMSE)
b. Krzywa uczenia
c. dane uczące i dane testowe
3. Testowanie modelu
a. zwiększenie złożoności modelu w celu poprawy dopasowania
b. kompromis między wariancją modelu i jego obciążeniem
c. walidacja krzyżowa, wybór liczby kroków
4. Zarządzanie zmiennymi
a. Transformacja zmiennych
b. Dyskretyzacja cech ciągłych
c. Standaryzacja / normalizacja
5. k-NN
a. Klasyfikacja za pomocą metody k-najbliższych sąsiadów
b. Regresja za pomocą metody k-najbliższych sąsiadów
6. Maszyna wektorów nośnych
a. Optymalizowana funkcja celu
b. Rozdzielanie danych za pomocą maksymalnego marginesu
c. Wybór funkcji jądra dla bardziej złożonych danych
d. Modyfikacja algorytmu SVM dla problemów regresyjnych
7. Metody wyboru zmiennych
a. Metody automatycznego wyboru podzbioru zmiennych (selekcja krokowa, eliminacja wsteczna, selekcja postępująca)
b. Metody filtrowania - określanie przydatności zmiennych (np. test Chi kwadrat, information gain, współczynniki korelacji)
8. Metody regularyzacji
a. wprowadzenie kary za złożoność
modelu
b. Regularyzacja L1 dla dodatkowej rzadkości współczynników
c. Regularyzacja L2 dla penalizacji dużych współczynników
d. regularyzowana regresja liniowa
e. regularyzowana regresja logistyczna
9. Regresja Lasso
10. Praktyczne warsztaty na rzeczywistych danych
11. Prezentacje projektów
Rodzaj przedmiotu
Koordynatorzy przedmiotu
Efekty kształcenia
Po ukończeniu przedmiotu przeciętny student będzie posiadał rzetelną, uporządkowaną wiedzę dotyczącą szerokiego zakresu narzędzi uczenia nienadzorowanego dla problemów regresyjnych i klasyfikacyjnych, takich jak regresja liniowa i logistyczna, liniowa analiza dyskryminacyjna, kNN, regresja grzbietowa, LASSO, Support Vector Machine. Będzie znał podstawy teoretyczne wymienionych algorytmów, jak i umiejętności programistyczne pozwalające na ich zastosowanie w praktyce. Będzie potrafił dobrać algorytmy modelowania predykcyjnego najlepiej dopasowane do specyfiki badanego problemu, dokonać rzetelnej walidacji modeli, wyboru i transformacji zmiennych, a także wykonać samodzielny projekt badawczy z wykorzystaniem poznanych metod.
K_U02, K_U05
Kryteria oceniania
Dwa praktyczne projekty uczenia maszynowego przygotowane w grupach co najwyżej 2 studentów - jeden dla problemu regresji i jeden dla klasyfikacji. Każdy projekt powinien być przygotowany na innym zbiorze danych wybranym przez studentów - jeden rozsądnie mały zbiór danych i jeden duży zbiór danych - zaakceptowanym przez prowadzącego (na przykład z https://www.kaggle.com). Studenci mają przygotować prezentację i rozszerzony raport w RMarkdown lub Python notebook, zawierający bloki kodu, które pozwolą w pełni odtworzyć zastosowaną analizę.
Literatura
Harrington, Peter. Machine learning in action. Vol. 5. Greenwich, CT: Manning, 2012.
Zumel, Nina, John Mount, and Jim Porzak. Practical data science with R. Manning, 2014.
Lantz, Brett. Machine learning with R. Packt Publishing Ltd, 2013.
Friedman, Jerome, Trevor Hastie, and Robert Tibshirani. "The Elements of Statistical Learning: Data Mining, Inference, and Prediction." Springer Series in Statistics ( (2009).
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: