Przetwarzanie danych: Eksploracja tekstu (Text mining) 3502-SCC-ADTm

Eksploracja tekstu (Text mining) to ogólna nazwa zróżnicowanych metod służących do zbierania dużych ilości danych tekstowych, ich obróbki i analizy. Są one wykorzystywane do różnych celów
i w różnych obszarach – od badań naukowych poprzez badania komercyjne aż po ekspertyzy przygotowywane na zlecenie rządu. Za ich pomocą podejmowano próby przewidywania kierunku ruchu akcji czy występowania protestów politycznych. Wyszukiwarki wykorzystują analizę tekstu do selekcji najbardziej adekwatnych dla nas reklam. Zwiększenie zakresu możliwego do przebadania materiału i automatyzacja analizy otwiera również nowe możliwości badań w naukach humanistycznych i społecznych.
Metodologia eksploracji tekstu jest opracowywana w różnych dyscyplinach do różnych zastosowań, w związku z czym ma wiele odmian. W ramach zajęć poznamy i przećwiczymy jej najważniejsze elementy: wyszukiwanie informacji (metody pozyskiwania tekstów), aplikację zaawansowanych metod statystycznych i sposobów przetwarzania języka naturalnego (NLP), takich jak tagowanie części mowy i analiza składniowa, wykorzystanie technik statystycznych do identyfikowania w tekście osób, organizacji i nazw miejsc oraz analizę sentymentu (sentiment analysis), która obejmuje rozpoznanie emocjonalnego zabarwienia analizowanego tekstu i wnioskowanie na tej podstawie o jego znaczeniu. Eksploracja tekstu obejmuje również bardziej podstawowe techniki pozyskiwania i przetwarzania danych. Należą do nich web scraping i web crawling oraz wykorzystywanie słowników i innych zasobów leksykalnych do przetwarzania tekstów.
Uczestnicy i uczestniczki zajęć poznają narzędzia do przetwarzania danych tekstowych z wielu plików zapisanych w różnych formatach oraz zautomatyzowane sposoby wydobywania informacji z tekstów, dowiedzą się, jak przygotować proste statystyki dotyczące badanych dokumentów oraz wyznaczyć podobieństwo i pogrupować teksty, a rezultaty odczytać z wykorzystaniem różnych metod wizualizacji wyników.
Na zajęciach korzystać będziemy z narzędzi do przetwarzania i analizy danych tekstowych Korpusomat, TermoPL (IPI PAN), Inforex, WSD, Topic, WebSty, Sentemo (CLARIN-PL), AntConc, LancsBox, bibliotek Natural Language Toolkit (NLTK) i spaCy, pracujących w środowisku Pythona, oraz bibliotek OpenNLP, tm
i stylo pracujących w języku R

Rodzaj przedmiotu

fakultatywne

Tryb prowadzenia

zdalnie

Efekty kształcenia

K_W01 zna i rozumie pojęcia socjologii cyfrowej
K_W05 rozumie funkcjonujące w świecie cyfrowym mechanizmy i źródła danych, jakie można wykorzystywać albo wygenerować
K_W12 rozumie założenia metodologiczne stojące za wybranymi metodami zbierania i analizy danych cyfrowych
K_U01 potrafi samodzielnie zaplanować i prowadzić badania społeczne z zastosowaniem nowoczesnych narzędzi przystosowanych lub stworzonych specjalnie na potrzeby świata cyfrowego
K_U02 potrafi analizować dane ilościowe i jakościowe o charakterze cyfrowym
K_U03 ma podstawowe umiejętności informatyczne pozwalające na poruszanie się w świecie cyfrowym i ułatwiające komunikację międzydziedzinową
K_U04 ma zaawansowane umiejętności komunikacyjne obejmujące komunikację międzydziedzinową (nauki społeczne/IT)
K_U05 potrafi przygotować prezentację wybranego zagadnienia lub badania w języku polskim i w języku obcym
K_U06 potrafi posługiwać się kategoriami teoretycznymi do opisu i analizy procesów zachodzących we współczesnych społeczeństwach
K_U07 potrafi wyszukiwać, gromadzić i przygotować do analizy za pomocą wybranych narzędzi dane dotyczące określonych zjawisk społecznych
K_U09 ma motywację do ciągłego doskonalenia własnych umiejętności dzięki postawie otwartej na konieczność uczenia się przez całe życie
K_U11 samodzielnie wyszukuje informacje o narzędziach służących analizie danych cyfrowych i dokształca się w zakresie korzystania z nich
K_U12 potrafi posługiwać się danym programem komputerowym do analizy danych cyfrowych korzystając z jego zaawansowanych funkcji
K_K01 jest świadom dylematów etycznych związanych z wykorzystaniem danych cyfrowych
K_K03 potrafi krytycznie selekcjonować dane cyfrowe umożliwiające opracowanie wybranego problemu badawczego

Kryteria oceniania

przygotowanie projektu badawczego

Literatura

McEnery, Tony, Andrew Hardie. 2011. Corpus Linguistics: Method, theory and practice. Cambridge: Cambridge University Press.
Baker, Paul. 2010. Sociolinguistics and Corpus Linguistics. Edinburgh: Edinburgh University Press.
Brezina, Vaclav. 2018. Statistics for corpus linguistics: A practical guide. Cambridge: Cambridge University Press.
Steven Bird, Ewan Klein, Edward Loper. 2009. Natural Language Processing with Python
Silge, Julia, Robinson, David. 2017. Text Mining with R
Jurafsky, Dan, Martin, James H. 2008. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition

Więcej informacji

Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb:

Strona przedmiotu 3502-SCC-ADTm w USOSweb