Statystyka i eksploracyjna analiza danych 2400-M1ABSEA
Zajęcia realizowane w ramach projektu „Zintegrowany Program Rozwoju Dydaktyki ZIP 2.0”, współfinansowanego ze środków Europejskiego Funduszu Społecznego Program Fundusze Europejskie dla Rozwoju Społecznego 2021 2027 (FERS) (nr umowy: FERS.01.05 IP.08 0365/23 00).
1. Kwestie organizacyjne; wprowadzenie do statystyki
● Omówienie programu kursu, zasad zaliczenia, literatury.
● Znaczenie statystyki i analizy danych w biznesie.
● Typy struktur danych.
● Pojęcia populacji i próby, pojęcie zmiennej losowej, rozkład zmiennej losowej, funkcja gęstości, dystrybuanta.
● Wybrane rozkłady statystyczne: rozkład normalny, t-Studenta, F-Snedecora, Poissona, Gamma, Beta.
2. Wprowadzenie do języka programowania Python
● Wczytywanie danych z różnych źródeł.
● Wybieranie obserwacji i zmiennych, filtrowanie, sortowanie.
● Omówienie podstawowych bibliotek języka programowania Python: numpy, pandas, statsmodels.
● Czyszczenie danych, wykrywanie i usuwanie duplikatów, wykrywanie, usuwanie i uzupełnianie braków danych.
● Przekształcanie struktur danych, łączenie zbiorów danych.
3. Miary położenia, rozproszenia i kształtu rozkładu
● Średnia, mediana, moda, kwartyle, decyle, kwantyle, percentyle.
● Rozstęp, rozstęp międzykwartylowy, wariancja, odchylenie standardowe, współczynnik zmienności.
● Skośność, kurtoza.
4. Miary zależności i asocjacji
● Korelacja Pearsona, Spearmana, Kendalla, współczynnik V Cramera.
5. Wizualizacja danych
● Obserwacje odstające Wykres pudełkowy, obserwacje odstające, IQR, Z-score, zmodyfikowany Z-score.
● Przekształcenia zmiennych: kategoryzacja zmiennych ciągłych, one-hot-encoding, normalizacja, standaryzacja, winsoryzacja.
● Znaczenie i cele wizualizacji danych.
● Złe i dobre praktyki w wizualizacji.
● Rodzaje wykresów a typ danych (ciągłe, kategoryczne, szeregi czasowe).
● Przegląd bibliotek języka programowania Python: matplotlib, seaborn, plotly, pandas plotting.
6. Testowanie hipotez
● Hipotezy, statystyki testowe, wartości krytyczne, p-value, poziom istotności, błędy I i II rodzaju.
● Moc testu, moc a wielkość próby.
7. Wybrane testy statystyczne
● Testy dla jednej grupy: testy na normalność rozkładu, test t, test Z, test dwumianowy, test χ² dla jednej grupy.
● Testy dla dwóch i więcej grup niezależnych: test t, test Wilcoxona, test χ², test Fishera. ANOVA, test Kruskala-Wallisa, test χ². Testy dla dwóch i więcej grup zależnych: test t, test Wilcoxona, test McNemara. ANOVA, test Q-Cochrana.
Szacunkowy nakład pracy studenta:
Typ aktywności K (kontaktowe) S (samodzielne)
wykład (zajęcia) 0 0
ćwiczenia (zajęcia) 30 0
egzamin 2 0
konsultacje 8 0
przygotowanie do ćwiczeń 0 30
przygotowanie do wykładów 0 0
praca z materiałami dodatkowymi umieszczanymi na platformie Moodle 0 0
przygotowanie do kolokwium 0 0
przygotowanie do egzaminu 0 30
Razem 40 60 = 100
Rodzaj przedmiotu
Koordynatorzy przedmiotu
Efekty kształcenia
Po zakończeniu kursu student:
● rozumie podstawowe pojęcia statystyczne,
● potrafi wczytywać, oczyszczać i przygotowywać dane do analiz,
● potrafi wyciągać wnioski w oparciu o miary położenia, rozproszenia, kształtu rozkładu, miary zależności i asocjacji,
● umie wizualizować dane w sposób jasny i zrozumiały, jak również wyciągać wnioski na podstawie takich wizualizacji,
● potrafi przeprowadzać i interpretować testy statystyczne.
Kryteria oceniania
Ocena końcowa wystawiana jest na podstawie: egzaminu pisemnego (waga 50%), projektu przygotowanego przez studentów (waga 30%), prezentacji projektu (waga 20%). Do uzyskania oceny pozytywnej z kursu wymagane jest uzyskanie co najmniej połowy punktów z każdego z wyżej wymienionych komponentów.
Literatura
Downey, A. B. (2014). Think stats: Exploratory data analysis in Python (Version 2.0.27).
Knaflic, C. N. (2015). Storytelling with data: A data visualization guide for business professionals. John Wiley & Sons, Inc.
Mangiafico, S. S. (2015). An R companion for the Handbook of Biological Statistics (Version 1.3.9, revised 2023) [Online handbook]. Rutgers Cooperative Extension. Retrieved from https://rcompanion.org/handbook.
Molin, S. (2021). Hands-on data analysis with pandas: Efficiently perform data collection, wrangling, analysis, and visualization using Python (2nd ed.). Packt Publishing.
Pant, D., & Mukhiya, S. K. (2025). Statistics for Data Scientists and Analysts: Statistical approach to data‑driven decision making using Python. BPB Publications.
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: