Przetwarzanie danych: Eksploracja tekstu (Text mining) 3500-SCC-ADTm
Eksploracja tekstu (Text mining) to ogólna nazwa zróżnicowanych metod służących do zbierania dużych ilości danych tekstowych, ich obróbki i analizy. Są one wykorzystywane do różnych celów i w różnych obszarach – od badań naukowych poprzez badania komercyjne aż po ekspertyzy przygotowywane na zlecenie rządu. Za ich pomocą podejmowano próby przewidywania kierunku ruchu akcji czy występowania protestów politycznych. Wyszukiwarki wykorzystują analizę tekstu do selekcji najbardziej adekwatnych dla nas reklam. Zwiększenie zakresu możliwego do przebadania materiału i automatyzacja analizy otwiera również nowe możliwości badań w naukach humanistycznych i społecznych.
Metodologia eksploracji tekstu jest opracowywana w różnych dyscyplinach do różnych zastosowań, w związku z czym ma wiele odmian. W ramach zajęć poznamy i przećwiczymy jej najważniejsze elementy: wyszukiwanie informacji (metody pozyskiwania tekstów), analiza teksu za pomocą wyrażeń regularnych, aplikację zaawansowanych metod statystycznych i sposobów przetwarzania języka naturalnego (NLP), takich jak analiza składniowa, wykorzystanie technik statystycznych do identyfikowania w tekście osób, organizacji i nazw miejsc oraz analizę sentymentu (sentiment analysis), która obejmuje rozpoznanie emocjonalnego zabarwienia analizowanego tekstu i wnioskowanie na tej podstawie o jego znaczeniu, modelowanie tematyczne (topic modelling). Eksploracja tekstu obejmuje również bardziej podstawowe techniki pozyskiwania i przetwarzania danych.
Uczestnicy i uczestniczki zajęć poznają narzędzia do przetwarzania danych tekstowych z wielu plików zapisanych w różnych formatach oraz zautomatyzowane sposoby wydobywania informacji z tekstów, dowiedzą się, jak przygotować proste statystyki dotyczące badanych dokumentów oraz wyznaczyć podobieństwo i pogrupować teksty, a rezultaty odczytać z wykorzystaniem różnych metod wizualizacji wyników.
Na zajęciach korzystać będziemy z bibliotek pracujących w środowisku Pythona, w szczególności regex, Natural Language Toolkit (NLTK), spaCy, gensim.
Rodzaj przedmiotu
Tryb prowadzenia
Założenia (opisowo)
Efekty kształcenia
K_W01 zna i rozumie pojęcia socjologii cyfrowej
K_W05 rozumie funkcjonujące w świecie cyfrowym mechanizmy i źródła danych, jakie można wykorzystywać albo wygenerować
K_W12 rozumie założenia metodologiczne stojące za wybranymi metodami zbierania i analizy danych cyfrowych
K_U01 potrafi samodzielnie zaplanować i prowadzić badania społeczne z zastosowaniem nowoczesnych narzędzi przystosowanych lub stworzonych specjalnie na potrzeby świata cyfrowego
K_U02 potrafi analizować dane ilościowe i jakościowe o charakterze cyfrowym
K_U03 ma podstawowe umiejętności informatyczne pozwalające na poruszanie się w świecie cyfrowym i ułatwiające komunikację międzydziedzinową
K_U04 ma zaawansowane umiejętności komunikacyjne obejmujące komunikację międzydziedzinową (nauki społeczne/IT)
K_U05 potrafi przygotować prezentację wybranego zagadnienia lub badania w języku polskim i w języku obcym
K_U06 potrafi posługiwać się kategoriami teoretycznymi do opisu i analizy procesów zachodzących we współczesnych społeczeństwach
K_U07 potrafi wyszukiwać, gromadzić i przygotować do analizy za pomocą wybranych narzędzi dane dotyczące określonych zjawisk społecznych
K_U09 ma motywację do ciągłego doskonalenia własnych umiejętności dzięki postawie otwartej na konieczność uczenia się przez całe życie
K_U11 samodzielnie wyszukuje informacje o narzędziach służących analizie danych cyfrowych i dokształca się w zakresie korzystania z nich
K_U12 potrafi posługiwać się danym programem komputerowym do analizy danych cyfrowych korzystając z jego zaawansowanych funkcji
K_K01 jest świadom dylematów etycznych związanych z wykorzystaniem danych cyfrowych
K_K03 potrafi krytycznie selekcjonować dane cyfrowe umożliwiające opracowanie wybranego problemu badawczego
Kryteria oceniania
Ocena końcowa z przedmiotu składa się z:
• 60% oceny za wykonywanie prac domowych i aktywny udział w zajęciach:
o prace domowe: do uzyskania pozytywnej oceny z zajęć konieczne jest zaliczenie 3 prac domowych (mini projektów);
o aktywny udział w zajęciach,
• 40% oceny za wykonywanie projektu końcowego.
Wymagania dotyczące projektu końcowego.
Wielkość grup: 2-3 osoby
Każda grupa ma przygotować raport z analizy wybranych przez siebie tekstów (6-8 stron, odstępy 1,5, czcionka 12). Do raportu (format .docx, pdf) należy dołączyć kod (notatnik jupyter) lub przygotować cały raport w notatniku jupyter.
Raport powinien składać się z następujących komponentów:
• wstęp,
• postawienie problemu badawczego i sformułowanie pytań badawczych lub pytania badawczego,
• opis zbioru danych,
• opis zastosowanych metod,
• prezentacja i analiza wyników,
• wnioski.
Teksty mogą być w języku polskim lub angielskim. Mogą Państwo pobrać książki (np. Project Gutenberg, wolnelektury.pl), poszukać gotowych korpusów np. na kaggle.com, pobrać dane z mediów społecznościowych, np. z wykorzystaniem programu Facepager. Minimalna objętość tekstu/korpusu tekstów: 100 tys. tokenów.
Powinni Państwo wykorzystać minimum 4 różne metody analizy/przekształcania danych.
Należy również przedstawić co najmniej 2 wizualizacje.
Kryteria oceny
Problem:
Problem jest jasno przedstawiony, a uzasadnienie jest logiczne; pytania badawcze precyzyjnie sformułowane
Opis metodologii i procedury analizy:
Wybrane metody i przyjęta metodologia są adekwatne do postawionego problemu i pytań badawczych
Dobrane metody i narzędzia składają się na spójny proces badawczy
Oryginalność wybranego korposu(ów)
Analiza i wnioski:
Analiza danych jest poprawna metodologicznie
Wyniki badań są jasno zrelacjonowane
Wnioski są uzasadnione w świetle uzyskanych wyników
Literatura
Steven Bird, Ewan Klein, Edward Loper. 2009. Natural Language Processing with Python
Hobson Lane, Cole Howard, Hannes Hapke. 2021. Przetwarzanie języka naturalnego w akcji
Justin Grimmer, Margaret E. Roberts, and Brandon M. Stewart. 2022, Text as Data: A New Framework for Machine Learning and the Social Sciences
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: