Ekstrakcja i analiza danych tekstowych z językiem Python 2400-ZEWW980
Plan zajęć:
Zbieranie danych z platformy Mastodon z wykorzystaniem API
Zbieranie wiadomości z portali internetowych
Przegląd metod przetwarzania języka naturalnego (NLP)
Biblioteka NLTK: tokenizacja słów, stemming, n-gramy, lematyzacja, tagowanie części mowy
Reprezentacja wektorowa słów
Platforma Hugging Face i praca z dużymi modelami językowymi (LLM)
Analiza sentymentu
Modelowanie tematyczne z wykorzystaniem BERTopic
Konsultacje dotyczące wyboru tematu i metodologii
Prezentacje projektów (2 zajęcia)
Szacunkowy nakład pracy studenta: 2ECTS x 25h = 50h
(K) - godziny kontaktowe (S) - godziny pracy samodzielnej
wykład (zajęcia): 0h (K) 0h (S)
ćwiczenia (zajęcia): 30h (K) 0h (S)
egzamin: 0h (K) 0h (S)
konsultacje: 2h (K) 0h (S)
przygotowanie do ćwiczeń: 0h (K) 6h (S)
praca z materiałami dodatkowymi umieszczanymi na platformie Moodle : 0h (K) 2h (S)
przygotowanie projektu zaliczeniowego: 0h (K) 10h (S)
Razem: 32h (K) + 18h (S) = 50h
Rodzaj przedmiotu
Koordynatorzy przedmiotu
Efekty kształcenia
WIEDZA
Student/ka zna podstawy działania popularnych metod przetwarzania języka naturalnego (NLP)
Student/ka zna podstawowe biblioteki służące do analizy tekstu w języku Python
Student/ka zna możliwości i ograniczenia związane z analizą danych tekstowych
UMIEJĘTNOŚCI
Student/ka potrafi tworzyć i zarządzać bazą danych w języku Python
Student/ka potrafi analizować duży zbiór tekstowy przy użyciu technik text miningu
Student/ka potrafi efektywnie wizualizować dane z wykorzystaniem dobrych praktyk prezentacyjnych
Student/ka potrafi korzystać z modeli dostępnych na platformie Hugging Face
KOMPETENCJE SPOŁECZNE
Student/ka zna zasady etycznego i legalnego przetwarzania danych
Student/ka potrafi prezentować swoją pracę i formułować wnioski oparte na analizie danych
Kryteria oceniania
Wymagane są:
projekt końcowy
obecność (dopuszczalna liczba nieobecności: 2)
Zaliczenie kursu opiera się na przygotowaniu projektu realizowanego w ramach pracy zespołowej. Projekt będzie koncentrował się na wykorzystaniu języka Python do analizy danych tekstowych, np. analizy wybranego zjawiska społecznego na podstawie empirycznego badania. Projekt składa się ze skryptu w języku Python oraz krótkiej prezentacji.
Literatura
Hobson Lane Cole Howard, Hannes Max Hapke (2021), Przetwarzanie języka naturalnego w akcji. Rozumienie, analiza i generowanie tekstu w Pythonie na przykładzie języka angielskiego, Wydawnictwo Naukowe PWN
Własne materiały dydaktyczne przygotowane na podstawie różnych źródeł (np. z dokumentacji z bibliotek)
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: