Fakultet specjalistyczny 2700-M-ZBD-D2-FASP
Przedmiot ma charakter konwersatoryjny i koncentruje się na metodologicznym projektowaniu badań analizy sentymentu w mediach cyfrowych oraz ich statystycznej weryfikacji. Celem zajęć jest rozwinięcie umiejętności formułowania problemów badawczych, konstruowania hipotez, budowy korpusu danych tekstowych oraz doboru odpowiednich metod przetwarzania języka naturalnego (NLP) do analizy treści medialnych.
Studenci poznają teoretyczne podstawy emocji (Ekman, Plutchik), uczą się reprezentacji tekstu w postaci numerycznej (Bag of Words, TF-IDF), a następnie stosują metody analizy sentymentu – zarówno słownikowe (AFINN, VADER), jak i kontekstowe (BERT). Szczególny nacisk położony jest na poprawność metodologiczną, interpretację wskaźników statystycznych, analizę różnic między grupami oraz badanie zależności w czasie.
Przedmiot integruje podejście NLP z klasycznymi metodami statystycznymi (test t, U Manna–Whitneya, chi-kwadrat, korelacja Pearsona, elementy regresji liniowej), kładąc nacisk na krytyczne rozumienie relacji między danymi a wnioskami oraz ograniczenia wnioskowania przyczynowego w badaniach mediów.
Zaliczenie obejmuje test wiedzy oraz przygotowanie koncepcji badania (one-pager), zawierającej cel i hipotezy badawcze, opis korpusu danych, uzasadnienie wyboru metody NLP oraz plan weryfikacji statystycznej.
Tematyka zajęć
BLOK I – Podstawy teoretyczne
1. Wprowadzenie do analizy sentymentu
2. Teorie emocji
BLOK II – Projektowanie badania
3. Problem badawczy i hipotezy
4. Plan badania
5. Web scraping – wprowadzenie koncepcyjne
6. Budowa korpusu danych
BLOK III – Reprezentacja języka
7. Przygotowanie tekstu
8. Zamiana tekstu na liczby
9. Wstępna eksploracja danych
BLOK IV – Metody analizy sentymentu
10. Metody słownikowe
11. Modele kontekstowe
12. Sentyment w czasie i porównania
BLOK V – Weryfikacja statystyczna
13. Testy różnic
14. Zależności i modele
Koordynatorzy przedmiotu
Efekty kształcenia
W zakresie wiedzy student:
1. Zna podstawowe pojęcia z zakresu analizy sentymentu, w tym różnicę między emocją, opinią a sentymentem.
2. Rozumie teoretyczne modele emocji wykorzystywane w analizie treści (m.in. koncepcje Ekmana i Plutchika).
3. Zna metody reprezentacji tekstu w analizie komputerowej (Bag of Words, TF-IDF).
4. Rozumie zasadę działania metod słownikowych (np. AFINN, VADER) oraz modeli kontekstowych (np. BERT).
5. Zna podstawowe testy statystyczne stosowane w analizie różnic i zależności (test t, U Manna–Whitneya, chi-kwadrat, korelacja Pearsona, regresja liniowa).
6. Rozumie, że metody ilościowe w badaniach mediów mają swoje ograniczenia oraz że związek między danymi (korelacja) nie oznacza automatycznie, że jedna rzecz powoduje drugą (przyczynowość).
W zakresie umiejętności student:
1. Potrafi sformułować problem badawczy oraz skonstruować hipotezy dotyczące analizy sentymentu w mediach cyfrowych.
2. Potrafi zaprojektować koncepcję badania obejmującą dobór korpusu danych, określenie zmiennych oraz plan analizy.
3. Umie dobrać adekwatną metodę NLP do charakteru badanego materiału tekstowego.
4. Potrafi zaplanować statystyczną weryfikację wyników i dobrać odpowiedni test do rodzaju danych.
5. Umie interpretować wyniki analizy sentymentu oraz testów statystycznych w kontekście komunikacji medialnej.
6. Potrafi krytycznie ocenić poprawność metodologiczną projektu badawczego i wskazać jego ograniczenia.
W zakresie kompetencji społecznych student:
1. Jest gotów do krytycznej analizy treści medialnych z wykorzystaniem narzędzi ilościowych.
2. Rozumie znaczenie rzetelności metodologicznej i odpowiedzialności w interpretacji danych.
3. Jest świadomy etycznych aspektów pozyskiwania i analizy danych tekstowych.
4. Potrafi formułować wnioski w sposób ostrożny i zgodny z zasadami poprawnego wnioskowania statystycznego.
Kryteria oceniania
Zaliczenie przedmiotu składa się z dwóch równoważnych części, z których każda stanowi 50% oceny końcowej.
Pierwszą część stanowi test wiedzy sprawdzający znajomość kluczowych pojęć teoretycznych, metod NLP oraz podstaw statystycznej weryfikacji wyników. Test obejmuje zagadnienia dotyczące projektowania badania, reprezentacji tekstu (m.in. Bag of Words, TF-IDF), metod analizy sentymentu (AFINN, VADER, BERT) oraz testów statystycznych wykorzystywanych do analizy różnic i zależności.
Drugą część stanowi przygotowanie koncepcji zgodnie z wymaganiami która ma mieć ma charakter koncepcyjny i obejmować sformułowanie celu i hipotez badawczych, opis strategii doboru danych i budowy korpusu, uzasadnienie wyboru metody NLP oraz przedstawienie planu weryfikacji statystycznej wyników. Ocenie podlega poprawność metodologiczna, spójność logiczna projektu, adekwatność doboru metod oraz umiejętność interpretacji planowanych rezultatów.
Ocena końcowa jest średnią ważoną obu części (50% test wiedzy, 50% koncepcja badania).
Literatura
Literatura podstawowa
1. J. Devlin, M.-W. Chang, K. Lee, K. Toutanova, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, 2018.
2. S. M. Mohammad, Sentiment Analysis: Automatically Detecting Valence, Emotions, and Other Affectual States from Text, Woodhead Publishing, 2021.
3. J. Karlgren, M. Sahlgren, F. Olsson, F. Espinoza, O. Hamfors, Usefulness of Sentiment Analysis, 2012.
4. T. Singh, M. Kumari, Role of Text Pre-processing in Twitter Sentiment Analysis, 2016.
5. S. B. Abkenar, M. H. Kashani, E. Mahdipour, S. M. Jameii, Big data analytics meets social media: A systematic review of techniques, open issues, and future directions, Telematics and Informatics, 2020.
Literatura uzupełniająca
1. H. M. Montesinos-Yufa, E. Musgrove, A Sentiment Analysis of News Articles Published Before and During the COVID-19 Pandemic, International Journal on Data Science and Technology, 2024.
2. M. McCombs, Setting the Agenda: The Mass Media and Public Opinion, Polity Press, Cambridge 2008.
3. M. Castells, Sieci oburzenia i nadziei. Ruchy społeczne w erze Internetu, Wydawnictwo Naukowe PWN, Warszawa 2013.
4. P. Sztompka, Socjologia zmian społecznych, Wydawnictwo Znak, Kraków 2010.
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: