Statystyczna analiza danych 1000-714SAD
1. Podstawowe pojęcia rachunku prawdopodobieństwa i statystyki: zmienne losowe, ich rozkłady i charakterystyki liczbowe, przestrzeń probabilistyczna,
2. Podstawowe pojęcia statystyki przestrzeń statystyczna, eksperyment losowy, statystyka, model statystyczny, miary poprawności modelu
3. Estymacja. Obciążenie i efektywność estymatora, estymatory największej wiarygodności, estymacja przedziałowa
4. Podsumowywanie, wizualizacja danych. Wykres kwantyl-kwantyl, histogram, gładki estymator funkcji gęstości, wykres pudełkowy
5. Testowanie hipotez statystycznych Pojęcie hipotezy statystycznej, zasady weryfikacji hipotez, błędy I i II rodzaju, moc testu, podstawowy lemat Neymanna-Pearsona, parametryczne testy istotności, testy istotności dla wartości średniej, test istotności dla wariancji
6. Pojęcie p-wartości i pułapki testowania hipotez. P-wartość, wielkość efektu, korekcja błędów wielokrotnego testowania
7. Przydatne testy. Testy istotności dla dwóch średnich, testowanie nieparametrycznych hipotez dla median, testy zgodności, analiza wariancji.
8. Regresja liniowa, prosta, wielokrotna i z rozszerzeniami, założenia, estymacja parametrów i ocenianie dopasowania modelu liniowego.
9. Klasyfikacja. Regresja logistyczna, LDA, QDA, KNN
10. Metody re-próbkowania. Walidacja krzyżowa, bootstrap
11. Selekcja modelu i regularyzacja. Wybór podzbioru cech predykcyjnych, korzystanie z modelu walidacyjnego i walidacji krzyżowej, dane wielkowymiarowe, regularyzacja lasso i siodłowa, metoda częściowych najmniejszych kwadratów.
12. Metody drzewiaste, drzewa decyzyjne, bagging, drzewa losowe, boosting
13. Maszyny wektorów wspierających. Hiperpłaszczyzny separujące, klasyfikator największego marginesu, klasyfikatory wektorów wspierających, maszyny wektorów wspierających.
14. Metody redukcji wymiaru. PCA
15. Uczenie bez nadzoru. Klasteryzacja, algorytmy hierarchicznego klastrowania, k-średnich.
16. Modele nieliniowe. Regresja wielomianowa, splajny, uogólnione modele addytywne.
Rodzaj przedmiotu
Założenia (opisowo)
Koordynatorzy przedmiotu
Efekty kształcenia
Wiedza:
1. Ma ogólna wiedzę o problemach statystycznej analizy danych.
2. Ma podstawową wiedzę w zakresie podstawowych narzędzi statystycznych stosowanych w modelowaniu i analizie danych.
3. Ma wiedzę z zakresu podstawowych metod rachunku prawdopodobieństwa i statystyki, w tym elementów teorii estymacji i testowania hipotez
Umiejętności:
1. Potrafi wykonać proste analizy i testy statystyczne.
2. Potrafi stosować techniki nowoczesnej statystycznej analizy danych.
3. Potrafi konstruować modele probabilistyczne i stosować metody statystyczne do analizy danych.
Kompetencje społeczne:
1. Umie wyjaśnić w zrozumiałym języku sens wnioskowania statystycznego.
Kryteria oceniania
Wpływ na ocenę końcową: egzamin 40%, kolokwium 20%, zadanie zaliczające 20%, aktywność na ćwiczeniach 10%, aktywność na labach 10%.
Literatura
Lesław Gajek, Marek Kałuszka, Wnioskowanie statystyczne, modele i metody.
John A. Rice, Mathematical Statistics and Data Analysis.
Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. Introduction to Statistical Learning in R.
Więcej informacji
Więcej informacji o poziomie przedmiotu, roku studiów (i/lub semestrze) w którym się odbywa, o rodzaju i liczbie godzin zajęć - szukaj w planach studiów odpowiednich programów. Ten przedmiot jest związany z programami:
- Bioinformatyka i biologia systemów, stacjonarne, pierwszego stopnia
- Matematyka, stacjonarne, pierwszego stopnia
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: