Statystyka II 1000-135ST2
P R O G R A M
Wstęp
* Co to jest "statystyczna" analiza danych?
* Czy dane są próbą z populacji?
* Jaki jest problem obliczeniowy dla populacji?
* Czy dana metoda analizy danych rozwiązuje ten problem?
* Główne zadania: eksploracja danych i predykcja.
Eksploracyjna analiza danych
1. Streszczenia danych.
* Miary położenia: średnia, mediana, moda.
* Miary rozrzutu: wariancja, odchylenie standardowe i bezwzględne,
odległość międzykwartylowa, MAD, entropia, współczynnik Giniego.
* Boxplot.
* Miary bliskości między cechami: błąd średniokwadratowy, entropia względna = odległość Kullbacka-Leiblera, odległość chi-kwadrat.
* Miary zależności między cechami: korelacja liniowa, korelacja rang,
wspólna informacja, współczynnik Goodmana-Kruskala, krzywe ROC.
2. Estymacja gęstości: histogram i estymator jądrowy.
3. Redukcja wymiaru cech: analiza składowych głównych, skalowanie wielowymiarowe i analiza odpowiedniości.
4. Klasteryzacja - redukcja wymiaru danych.
* Klasteryzacja oparta na modelu statystycznym czyli estymacja parametrów mieszanki rozkładów normalnych.
* Metody relokacyjne: k-średnich, k-medoidów.
* Metody hierarchiczne: aglomeracyjne (single-, average-, complete-linkage)
i metody podziału.
Predykcja statystyczna
1. Wstęp do predykcji.
* Regresja klasyfikacja i dyskryminacja na przykładzie metody k-najbliższych sąsiadów (knn).
* E(Y|X=x) - optymalna średniokwadratowa regresja;
* argmaxy p(y|x) - optymalna klasyfikacja.
* Empiryczna ocena błędu predykcji: próba ucząca i testujaca.
* Ocena błedu predykcji za pomoca randomizacji danych: kroswalidacja, testy permutacyjne i metoda bootstrap.
2. Wielowymiarowy rozkład normalny.
* Estymacja parametrów metodą największej wiarygodności.
* Rozkłady pomocnicze: chi-kwadrat, t-studenta, F-Snedecora.
3. Metody parametryczne.
* Modele liniowe: regresja, analiza kowariancji i analiza wariancji.
* Klasyfikacja w modelu normalnym.
* Liniowa analiza dyskryminacyjna.
* Regresja logistyczna i logliniowa.
* Sieci neuronowe.
* Ocena istotności i wybór modelu, przedziały ufności dla współczynników.
* Ocena i wybór modelu.
4. Metody nieparametryczne.
* Regresja nieparametryczna.
* Metoda knn.
* Drzewa klasyfikacyjne i regresyjne.
* Maszyny wektorów podpierających.
Rodzaj przedmiotu
Założenia (lista przedmiotów)
Efekty kształcenia
Wiedza i imiejętności
1.Wie, co to są miary położenia, rozrzutu, zależności i bliskości między zmiennymi losowymi. Umie streścić informację o rozkładzie jednowymiarym i zaprogramować to w środowisku do obliczeń statystycznych R.
2.Wie, co to jest i zna podstawowe własności histogramu i estymatora jądrowego gęstości prawdopodobieństwa. Umie tego używać – obliczać i rysować estymatory gęstości jedno- i dwuwymiarowych w R.
3.Rozumie analizę składowych głównych, zna podstawowe charakteryzacje rozkładu spektralnego macierzy kowariancji. Wie jaki ma ona związek z rozkładem na wartości szczególne (SVD) macierzy danych. Umie policzyć rozkład SVD i przedstawić dane na płaszczyźnie dwóch pierwszych składowych głównych. Umie policzyć istotność redukcji całkowitej wariancji danych do k-głównych składowych.
4.Rozumie inne metody redukcji wymiaru danych: skalowanie wielowymiarowe i analizę odpowiedniości (correspondence analysis). Umie to policzyć i przedstawić graficznie w R.
5.Rozumie algorytmy klasteryzacji k-średnich i k-medoidów, umie je wyprowadzić jako zachłanne rozwiązania problemów optymalizacyjnych. Wie, co to jest separowalność - podstawowa ocena istotności podziału danych na k-częsci. Zna metody klasteryzacji aglomeracyjnej. Umie klasteryzować dane w R.
6.Zna podstawowe własności wielowymiarowego rozkładu normalnego. Umie wyprowadzić wzory na estymatory największej wiarygodności dla parametrów tego rozkładu.
7.Rozumie zwiazek optymalnej i bayesowskiej reguły klasyfikacyjnej. Umie wyprowadzić wzory na estymator bajesowskiej reguły klasyfikacyjnej w modelu normalnym. Rozumie estymację błędu klasyfikacji za pomocą kroswalidacji k-krotnej.
8.Wie, co to jest model liniowy. Zna wzory na estymatory najmniejszych kwadratów dla parametrów tego modelu. Umie je wyprowadzić z zasady największej wiarygodności oraz, alternatywnie, przy pomocy rozkładu QR macierzy planu eksperymentu. Umie policzyć streszczenie modelu liniowego w R.
9.Wie, co to jest test ilorazu wiarygodności (LR) . Umie wyprowadzić wzór na LR dla hipotez liniowych w modelu liniowym. Umie policzyć statystykę testową i jej p-wartość w R.
10.Zna residua obserwacji - zwykłe, studentyzowane i kroswalidacyjne. Umie za ich pomocą sprawdzać założenie normalności błędu i szukać obserwacji odstających. Zna główne kryteria informacyjne.
11.Umie budować modele liniowe dla empirycznych danych za pomocą środowiska R.
12.Wie, co to jest uogólniony model liniowy. Rozumie algorytm estymacji jego parametrów za pomocą metody największej wiarygodności. Umie budować uogólnione modele liniowe w R.
Kompetencje społeczne
Rozumie główne metody statystycznej analizy danych. Umie wykonać rutynową analizę w R.
Może analizować dane i budować proste modele we współpracy z przyrodnikiem, inżynierem czy ekonomistą.
Literatura
1. J. Koronacki i J. Mielniczuk, Statystyka, WNT 2001.
2. J. Koronacki i J. Ćwik, Statystyczne systemy uczące się, WNT 2005.
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: