Metody analizy danych 2100-CB-M-D1MADA
1. Zajęcia organizacyjne.
Wprowadzenie merytoryczne: możliwości (ograniczone) i bariery (znaczne) ilościowej analizy danych. Ilościowa analiza danych – geneza statystyki jako dyscypliny naukowej. Subdyscypliny statystyki (statystyka opisowa, statystyka indukcyjna). Podstawowe pojęcia: populacja, cechy populacji, próba. Wprowadzenie techniczne i organizacyjne: omówienie warunków zaliczenia. Zaopatrzenie słuchaczy kursu w niezbędne narzędzia informatyczne. Omówienie programu, wymogów i zasad. Instalacja i konfiguracja otwartoźródłowego oprogramowania do analizy danych.
2a. Czy dane o zjawiskach zostały sfałszowane lub przejawiają niepokojące anomalie?
Kategoryzacja zjawisk masowych według rodzajów rozkładów: rozkład normalny (np. wzrost, IQ, zarobki), rozkład Poissona (np. liczba e-maili/rozmów telefonicznych, które otrzymujesz w ciągu dnia), rozkład wykładniczy (czas między awariami/atakami w systemie komputerowym), rozkład jednostajny (rzut monetą, kostką generowanie liczb losowych przez człowieka). Test dwumianowy, Kołmogorowa-Smirnowa i Shapiro-Wilka. Gdzie nie sięga statystyka: szare i czarne łabędzie Taleba.
2b. Jak odkryć wartości odstające (fałszywe lub anomalne) w zbiorze danych (i się przy tym nie napracować).
Wprowadzenie do „metod liczbowych”. „Reguła kciuka”, test Grafa, test Grubbsa, test Dixona, i kryterium Chauveneta. Jakie cyfry wybierają fałszerze: prawo liczb anomalnych Franka Benforda. Inne (potencjalnie) przydatne prawidłowości: prawo potęgowe, zasada Pareto, prawo Zipfa. Addendum: mity i (przerażające) fakty o zjawisku „czarnej serii”.
2c. Na ile pewne może być Twoje wnioskowanie na podstawie zbioru danych i od czego ono zależy?
Na podstawie jakich kryteriów możesz wnioskować statystycznie: wielkość i zróżnicowanie zbioru danych. Ilościowy, obiektywny współczynnik pewności wnioskowania: maksymalny standardowy błąd oszacowania. Sposoby obliczania, warunki brzegowe i interpretacja. Moc efektu (effect size) zamiast poziomu istotności (probability value) jako uniwersalny czynnik oceny wyników wielu pomiarów.
3. Podziel dane na segmenty – sztuka profilowania grup i zjawisk niebezpiecznych w zbiorach danych.
Klasyfikacja danych w grupy (segmenty) za pomocą analizy skupień.
4. Czy i jak silny jest związek między zjawiskami? Odkryj powiązania pomiędzy zjawiskami i sprawcami.
Wprowadzenie do badania współzmienności. Wybrane miary zależności: współczynnik korelacji R Pearsona, stosunek korelacyjny eta (η), chi kwadrat (χ²) + V Craméra. Interpretacja i błędy interpretacyjne zjawiska korelacji (kwartet Anscomba i korelacje pozorne).
5. Takie same, czy nie? Badanie różnic między grupami (czyli o metodzie wnioskowania o podobieństwie lub różnicy innej niż „na oko”).
Test t-Studenta (Gosseta) dla dwóch prób zależnych.
6. Sztuka przewidywania zjawisk – analiza regresji.
Regresja liniowa jako elementarna metoda prognozowania. Rys historyczny analizy regresji. Teoretyczne podstawy analizy regresji. Obliczanie i analiza regresji liniowej. Regresja wielozmiennowa (wieloraka). Znaczenie zmiennych instrumentalnych. Wprowadzenie do budowy modeli zjawisk – możliwości i ograniczenia.
7. Prawdopodobieństwo przewidywań i zgodność opinii ekspertów.
Jak ocenić stopień prawdopodobieństwa stawianych przez Ciebie hipotez – iloraz szans (odds ratio). Oceń liczbowo, na ile eksperci są zgodni w wypowiedziach na dany temat – współczynnik kappa Cohena (κ).
8. Analiza danych jakościowych – tekstów.
Analiza wydźwięku (sentymentu) – czyli ile pozytywnych, a ile negatywnych uczuć w wypowiedzi tekstowej. Wykrywanie tzw. mowy nienawiści. Wykryj plagiat, czyli analiza autorstwa. Automatyczne wyszukiwanie nazw miejscowych w dużych tekstach i zamieszczanie ich na mapie. Modelowanie tematyczne tekstów. Narzędzia: https://ws.clarin-pl.eu/. Automatyczne profilowanie cech socjodemograficznych na podstawie tekstu: https://applymagicsauce.com/demo.
9. Statystyka i estetyka – zasady prezentacji danych.
Schematy raportów analitycznych. Standardy oceny danych. Datavis/dataviz (wizualizacja danych, data visualisation) versus infografika. Infografika w Canva (https://www.canva.com/pl_pl/). Wizualizacja danych z RawGraphs (https://rawgraphs.io/): diagram alluwialny, wykres Gantta, dendrogram, tesselacje Voronoia i diagram Sankeya. Właściwy dobór schematów kolorystycznych prezentacji. System doboru kolorów D.M. Kesslera (Color Wheel) Narzędzia: http://paletton.com; https://coolors.co/; https://color.adobe.com/pl/create/color-wheel/.
Koordynatorzy przedmiotu
Efekty kształcenia
Wiedza
Słuchacz przyswoi wiedzę na temat:
• typów i rodzajów oprogramowania otwarto- i zamkniętoźródłowego służącego do analizy danych
• klasycznych testów związków między zmiennymi oraz różnic między grupowych mogących posłużyć do identyfikacji sfałszowanych a normalnych błędnych zbiorów danych oraz wskazania nieprawidłowych jednostek analizy w nich występujących (K_W05)
• sposobów oceny wiarygodności zbiorów danych w szczególności w sytuacjach, gdy mogły zostać sfałszowane, zmanipulowane (K_W05)
• możliwości i ograniczeń analiz statystycznych w analityce śledczej (K_W05)
Umiejętności
Słuchacz posiądzie umiejętności następujące:
• podstawy efektywnej instalacji, konfiguracji i obsługi wybranego programu służącego do analiz statystycznych
• wykrywania wartości odstających, to jest anomalnych jednostek analizy w zbiorze danych (K_U02)
• oceny dużych zbiorów danych pod kątem ich wiarygodności (K_U02)
• odkrywania zależności i związków pomiędzy zmiennymi w zbiorach danych
• klasyfikacji i kategoryzacji zbiorów danych
• podstaw predykcji na podstawie zebranych danych
• wykorzystanie zdobytej wiedzy do zarządzania cyberryzykiem (K_U02)
• dostosowania poznanych miar statystycznych do potrzeb i problemów cyberbezpieczeństwa (analizy logów/billingów/danych telemetrycznych, predykcji ataków poprzez wykrywanie anomalii w ruchu sieciowym, identyfikacji w sieciach społecznościowych potencjalnie niebezpiecznych grup, probabilistycznej oceny ryzyka działań) (K_U02)
Kompetencje
Podjęta zostanie próba ukształtowania następujących kompetencji:
• zdolności oceny zjawisk otaczającej rzeczywistości w kategoriach probabilistycznych
• promowania potrzeby oglądu świata z perspektywy ilościowej (K_K01)
Kryteria oceniania
Projekt polegający na przygotowaniu za pomocą powyższych, trafnie dobranych narzędzi. W niektórych przypadkach tematyka projektu zaliczeniowego może obejmować wprowadzenie do zagadnień analitycznych.
Literatura
Literatura obowiązkowa
• D. Mider, A. Marcinkowska, Analiza danych ilościowych dla politologów. Praktyczne wprowadzenie z wykorzystaniem programu GNU PSPP, ACAD, Warszawa 2013.
• Wskazane nagrania YT z serii DataCat (konto CyberTeam) [konto i filmy prowadzącego zajęcia]
Literatura uzupełniająca
• S. Beduińska, M. Cypryanska, Statystyczny drogowskaz. Część pierwsza: praktyczne wprowadzenie do wnioskowania statystycznego, SWPS, Warszawa 2013.
• P. Francuz, R. Mackiewicz, Liczby nie wiedzą, skąd pochodzą, KUL, Lublin 2007.
• J. Górniak, J. Wachnicki, Pierwsze kroki a analizie danych. SPSS PL for Windows, SPSS Polska, Kraków 2000.
• D. Larose, Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa 2006.
• M. Nawojczyk, Przewodnik po statystyce dla socjologów, SPSS Polska, Kraków 2002.
• N. N. Taleb, Czarny łabędź. Skutki wysoce małoprawdopodobnych zdarzeń, Random House, Nowy Jork 2007
• N. N. Taleb, Antykruchość. Rzeczy, które odnoszą korzyści z chaosu, Random House, Nowy Jork 2012.
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: