Analiza tekstu: narzędzia webowe i desktopowe 3502-SCC-Fat

Kurs adresowany jest do studentów/ek zainteresowanych uzyskaniem zaawansowanej wiedzy na temat metodologii automatycznej analizy tekstu. Uczestnicy/czki zostaną wyposażeni/one w nowoczesne instrumentarium badawcze do pracy z różnego rodzaju danymi tekstowymi – od artykułów prasowych przez dokumenty urzędowe po ankiety z pytaniami otwartymi.

Na zajęciach zaprezentowane zostaną wiodące metody analizy tekstu wraz z przykładami ich wykorzystania w badaniach socjologicznych oraz narzędzia webowe i desktopowe służące do tworzenia elektronicznych korpusów tekstów, wydobywania terminologii, słów kluczowych i leksykalnych jednostek wielowyrazowych, identyfikacji ukrytych tematów i rozpoznawania wydźwięku emocjonalnego (Korpusomat, Kontext, SketchEngine, #LancsBox, TermoPL, LEM, Topic, Wydźwięk, Sentemo), dostosowane do języka polskiego i angielskiego. Studenci/tki poznają również wybrane korpusy tekstów w języku polskim (m.in. Narodowy Korpus Języka Polskiego, Monco, ChronoPress, Korpus Dyskursu Parlamentarnego) i dowiedzą się, w jaki sposób można je zastosować we własnej pracy badawczej.

Kurs składać się będzie z czterech części: (i) projektowanie korpusów i praca z korpusami (etapy czyszczenia i przetwarzania tekstu, wpływ budowy korpusu na rezultaty analiz i interpretację wyników, przegląd dostępnych korpusów języka polskiego, przeszukiwanie korpusów), (ii) wydobywanie informacji i statystyk z tekstu (listy frekwencyjne, terminologia, słowa kluczowe, kolokacje, jednostki nazewnicze, charakterystyka czasownikowa wypowiedzi), (iii) modelowanie tematyczne i sposoby grupowania tekstów, (iv) analiza sentymentu (wykorzystanie słowników, reguł semantyczno-składniowych oraz uczenia maszynowego). Obejmie 16 godzin zajęć dydaktycznych o charakterze warsztatowym (hands-on workshop) z elementami wykładu oraz 4 godziny konsultacji, w trakcie których uczestnicy/czki będą mieli/ały możliwość omówienia własnych pomysłów badawczych.

Zajęcia skierowane są zarówno do osób, które ukończyły kurs „Przetwarzanie danych: Eksploracja tekstu (Text mining)”, jak i do osób, które nie miały wcześniejszych doświadczeń w pracy z narzędziami służącymi do analizy tekstu i przetwarzania języka naturalnego. Znajomość języków programowania nie jest wymagana.

Rodzaj przedmiotu

fakultatywne

Tryb prowadzenia

zdalnie

Założenia (opisowo)

Wymagana jest bierna znajomość języka angielskiego na poziomie co najmniej B2. Nie jest wymagana znajomość języków programowania.

Efekty kształcenia

Student/ka
K_W05 rozumie funkcjonujące w świecie cyfrowym mechanizmy i źródła danych, jakie można wykorzystywać albo wygenerować
K_W12 rozumie założenia metodologiczne stojące za wybranymi metodami zbierania i analizy danych cyfrowych
K_U01 potrafi samodzielnie zaplanować i prowadzić badania społeczne z zastosowaniem nowoczesnych narzędzi przystosowanych lub stworzonych specjalnie na potrzeby świata cyfrowego
K_U02 potrafi analizować dane ilościowe i jakościowe o charakterze cyfrowym
K_U07 potrafi wyszukiwać, gromadzić i przygotować do analizy za pomocą wybranych narzędzi dane dotyczące określonych zjawisk społecznych
K_U11 samodzielnie wyszukuje informacje o narzędziach służących analizie danych cyfrowych i dokształca się w zakresie korzystania z nich
K_U12 potrafi posługiwać się danym programem komputerowym do analizy danych cyfrowych korzystając z jego zaawansowanych funkcji
K_K03 potrafi krytycznie selekcjonować dane cyfrowe umożliwiające opracowanie wybranego problemu badawczego
K_K05 jest gotów do pracy zespołowej i współpracy również międzydziedzinowej w ramach wykonywanych zadań
K_K06 potrafi dokonać krytycznej oceny własnej pracy (badawczej, wykonanych analiz

Kryteria oceniania

Zaliczenie na podstawie przygotowania projektu badawczego
Dopuszczalna liczba nieobecności podlegających usprawiedliwieniu: 1 spotkanie (4 godz. dydaktyczne)
Zasady zaliczania poprawkowego: takie same jak w I terminie

Literatura

 Baker, P. 2006. Using Corpora in Discourse Analysis. London: Continuum.
 Blei, D. 2011. Introduction to Probabilistic Topic Models. Communications of the ACM, 55.
 Brezina, V. 2018. Statistics in Corpus Linguistics. A Practical Guide. Cambridge, Cambridge University Press.
 Gabrielatos, C., Baker, P. 2008. Fleeing, Sneaking, Flooding: A Corpus Analysis of Discursive Constructions of Refugees and Asylum Seekers in the UK Press, 1996 –2005. Journal of English Linguistics, 36(1), 5–38.
 McEnery, T., Hardie, A. 2012. Corpus Linguistics: Method, theory and practice. Cambridge: Cambridge University Press.
 Pang, B., Lee, L. 2008. Opinion Mining and Sentiment Analysis. Found. Trends Inf. Retr. 2, 1–2, 1–135.

Więcej informacji

Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb:

Strona przedmiotu 3502-SCC-Fat w USOSweb