Analiza tekstu: narzędzia webowe i desktopowe 3502-SCC-Fat
Kurs adresowany jest do studentów/ek zainteresowanych uzyskaniem zaawansowanej wiedzy na temat metodologii automatycznej analizy tekstu. Uczestnicy/czki zostaną wyposażeni/one w nowoczesne instrumentarium badawcze do pracy z różnego rodzaju danymi tekstowymi – od artykułów prasowych przez dokumenty urzędowe po ankiety z pytaniami otwartymi.
Na zajęciach zaprezentowane zostaną wiodące metody analizy tekstu wraz z przykładami ich wykorzystania w badaniach socjologicznych oraz narzędzia webowe i desktopowe służące do tworzenia elektronicznych korpusów tekstów, wydobywania terminologii, słów kluczowych i leksykalnych jednostek wielowyrazowych, identyfikacji ukrytych tematów i rozpoznawania wydźwięku emocjonalnego (Korpusomat, Kontext, SketchEngine, #LancsBox, TermoPL, LEM, Topic, Wydźwięk, Sentemo), dostosowane do języka polskiego i angielskiego. Studenci/tki poznają również wybrane korpusy tekstów w języku polskim (m.in. Narodowy Korpus Języka Polskiego, Monco, ChronoPress, Korpus Dyskursu Parlamentarnego) i dowiedzą się, w jaki sposób można je zastosować we własnej pracy badawczej.
Kurs składać się będzie z czterech części: (i) projektowanie korpusów i praca z korpusami (etapy czyszczenia i przetwarzania tekstu, wpływ budowy korpusu na rezultaty analiz i interpretację wyników, przegląd dostępnych korpusów języka polskiego, przeszukiwanie korpusów), (ii) wydobywanie informacji i statystyk z tekstu (listy frekwencyjne, terminologia, słowa kluczowe, kolokacje, jednostki nazewnicze, charakterystyka czasownikowa wypowiedzi), (iii) modelowanie tematyczne i sposoby grupowania tekstów, (iv) analiza sentymentu (wykorzystanie słowników, reguł semantyczno-składniowych oraz uczenia maszynowego). Obejmie 16 godzin zajęć dydaktycznych o charakterze warsztatowym (hands-on workshop) z elementami wykładu oraz 4 godziny konsultacji, w trakcie których uczestnicy/czki będą mieli/ały możliwość omówienia własnych pomysłów badawczych.
Zajęcia skierowane są zarówno do osób, które ukończyły kurs „Przetwarzanie danych: Eksploracja tekstu (Text mining)”, jak i do osób, które nie miały wcześniejszych doświadczeń w pracy z narzędziami służącymi do analizy tekstu i przetwarzania języka naturalnego. Znajomość języków programowania nie jest wymagana.
Rodzaj przedmiotu
Tryb prowadzenia
Założenia (opisowo)
Efekty kształcenia
Student/ka
K_W05 rozumie funkcjonujące w świecie cyfrowym mechanizmy i źródła danych, jakie można wykorzystywać albo wygenerować
K_W12 rozumie założenia metodologiczne stojące za wybranymi metodami zbierania i analizy danych cyfrowych
K_U01 potrafi samodzielnie zaplanować i prowadzić badania społeczne z zastosowaniem nowoczesnych narzędzi przystosowanych lub stworzonych specjalnie na potrzeby świata cyfrowego
K_U02 potrafi analizować dane ilościowe i jakościowe o charakterze cyfrowym
K_U07 potrafi wyszukiwać, gromadzić i przygotować do analizy za pomocą wybranych narzędzi dane dotyczące określonych zjawisk społecznych
K_U11 samodzielnie wyszukuje informacje o narzędziach służących analizie danych cyfrowych i dokształca się w zakresie korzystania z nich
K_U12 potrafi posługiwać się danym programem komputerowym do analizy danych cyfrowych korzystając z jego zaawansowanych funkcji
K_K03 potrafi krytycznie selekcjonować dane cyfrowe umożliwiające opracowanie wybranego problemu badawczego
K_K05 jest gotów do pracy zespołowej i współpracy również międzydziedzinowej w ramach wykonywanych zadań
K_K06 potrafi dokonać krytycznej oceny własnej pracy (badawczej, wykonanych analiz
Kryteria oceniania
Zaliczenie na podstawie przygotowania projektu badawczego
Dopuszczalna liczba nieobecności podlegających usprawiedliwieniu: 1 spotkanie (4 godz. dydaktyczne)
Zasady zaliczania poprawkowego: takie same jak w I terminie
Literatura
Baker, P. 2006. Using Corpora in Discourse Analysis. London: Continuum.
Blei, D. 2011. Introduction to Probabilistic Topic Models. Communications of the ACM, 55.
Brezina, V. 2018. Statistics in Corpus Linguistics. A Practical Guide. Cambridge, Cambridge University Press.
Gabrielatos, C., Baker, P. 2008. Fleeing, Sneaking, Flooding: A Corpus Analysis of Discursive Constructions of Refugees and Asylum Seekers in the UK Press, 1996 –2005. Journal of English Linguistics, 36(1), 5–38.
McEnery, T., Hardie, A. 2012. Corpus Linguistics: Method, theory and practice. Cambridge: Cambridge University Press.
Pang, B., Lee, L. 2008. Opinion Mining and Sentiment Analysis. Found. Trends Inf. Retr. 2, 1–2, 1–135.
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: