Laboratorium: analiza danych 3800-AIK-LAD

Celem laboratorium jest praktyczne opanowanie pełnego cyklu pracy z danymi empirycznymi - od surowych plików po raport badawczy - na przykładach z kognitywistyki i psychologii poznawczej.

Na zajęciach studenci, pracując indywidualnie i w małych zespołach, realizują kolejne etapy:

- pozyskanie i import danych (pliki CSV/Excel, proste bazy SQL, dane z repozytoriów badawczych);
- wstępne rozpoznanie struktury danych, typów zmiennych i potencjalnych problemów (braki, wartości odstające, błędne zakodowanie);
- czyszczenie i transformacja danych w Pandas: filtrowanie, scalanie tabel, przekształcanie zmiennych, tworzenie nowych wskaźników;
- eksploracja danych: statystyki opisowe, rozkłady, korelacje, wstępne modele;
- wizualizacja danych z użyciem Seaborn/Matplotlib (wykresy rozkładów, zależności, interakcji) oraz zasady czytelnej prezentacji;
- zastosowanie podstawowych metod wnioskowania statystycznego poznanych na wykładzie
“Statystyka” do danych eksperymentalnych (testy hipotez, ANOVA, proste modele regresyjne);
- interpretacja wyników w kontekście pytań badawczych i teorii procesów poznawczych;
- dokumentowanie pracy z danymi (notebooki Jupyter, README, komentarze w kodzie);
- korzystanie z systemu kontroli wersji Git oraz platformy GitHub do pracy nad wspólnym repozytorium;
- przygotowanie końcowego raportu z analizy (notebook, raport PDF/HTML, prezentacja ustna).

Podstawą zaliczenia jest projekt analizy danych wzięty z rzeczywistego badania (bądź realistycznie zasymulowany), realizowany od etapu postawienia pytania badawczego po raportowanie i prezentację wyników.

Koordynatorzy przedmiotu

Artur Czeszumski
Bartosz Maćkiewicz

Założenia (opisowo)

- podstawowa znajomość struktur danych w Pandas oraz pracy w środowisku Jupyter / podobnym; - zalecana (choć niekonieczna) znajomość podstaw statystyki z równolegle realizowanego kursu “Statystyka”; - gotowość do pracy projektowej w małych zespołach i korzystania z systemu kontroli wersji Git/GitHub.

Efekty kształcenia

Nabyta wiedza:
- zna podstawowe składniki programów komputerowych oraz narzędzia programistyczne wykorzystywane w analizie danych w języku Python (K_W01);
- zna narzędzia statystyczne stosowane w modelowaniu i analizie danych eksperymentalnych, w szczególności danych psychologicznych i neurofizjologicznych (K_W05, K_W08).

Nabyte umiejętności:
- potrafi przygotować dane do analizy: zaimportować je z różnych źródeł, oczyścić, przekształcić i udokumentować zastosowane operacje (K_U05, K_U09);
- potrafi zastosować w Pythonie odpowiednie techniki analizy danych (statystyka opisowa, testy hipotez, proste modele regresyjne) oraz wykonać wizualizacje i interpretację wyników (K_U05, K_U09, K_W05);
- potrafi zaplanować i zrealizować projekt analizy danych, wykorzystując narzędzia kontroli wersji i pracy zespołowej (Git, GitHub), a także zintegrować wiedzę statystyczną z wiedzą z zakresu kognitywistyki i AI (K_U19, K_U20).

Nabyte kompetencje społeczne:
- potrafi precyzyjnie formułować pytania badawcze i techniczne; (K_K02);
- jest przygotowany do pracy zespołowej nad projektem analizy danych, dzielenia się zadaniami i odpowiedzialnością oraz wypracowywania wspólnych standardów pracy (K_K03);
- jest gotów do systematycznej, długofalowej pracy nad projektem badawczym, w tym do iteracyjnego ulepszania kodu, analiz i raportu (K_K04).

Kryteria oceniania

- podstawą zaliczenia jest projekt (indywidualny lub zespołowy) polegający na przygotowaniu analizy danych, obejmujący pełen cykl pracy z danymi – od przygotowania po raport i prezentację;
- na ocenę składają się:
- jakość i czytelność kodu (struktura projektu, komentowanie, użycie Git/GitHub);
- poprawność przygotowania danych (obsługa braków, transformacje, uzasadnienie decyzji);
- adekwatność zastosowanych metod statystycznych i poprawność ich wykonania;
- jakość wizualizacji i interpretacji wyników;
- końcowy raport (notebook/raport pisemny) oraz krótka prezentacja wyników;
- warunkiem zaliczenia jest terminowe złożenie projektu i obecność na większości zajęć

Dopuszczalna liczba nieobecności podlegających usprawiedliwieniu: 2 nieobecności; każda dodatkowa wymaga odrobienia zajęć w formie samodzielnego opracowania zadań wskazanych przez prowadzącego.

Literatura

Literatura podstawowa:
- W. McKinney, “Python for Data Analysis”, O’Reilly.
- J. VanderPlas, “Python Data Science Handbook”, O’Reilly.
- A. Downey, “Think Stats. Exploratory Data Analysis in Python”, O’Reilly.
Literatura uzupełniająca:
- C. A. Cullen, “Practical Statistics for Data Scientists”, O’Reilly
- M. Krzywinski, N. Wong, “Fundamentals of Data Visualization” (dostępna także online).
- Dokumentacja bibliotek pandas, matplotlib, seaborn, statsmodels oraz oficjalna dokumentacja Git i GitHuba.