Text-mining i analiza źródeł internetowych w języku Python 2400-ZEWW853
Zbieranie danych z platform społecznościowych z wykorzystaniem BigQuery
• Zbieranie danych z Reddit oraz Mastodon z wykorzystaniem API
• Zbieranie wiadomości z portali internetowych
• Przegląd metod Natural Language Processing
• Wyrażenia regularne (regular expressions)
• Tokenizacja słów, stemming, n-gramy, lematyzacja, tagowanie części mowy
• Analiza sentymentu
• Analiza semantyczna, modelowanie tematyczne
(LSA, LDA, PCA)
• Wykorzystanie sieci neuronowych w text- miningu
• Wektory słów: Word2Vec
• Klastrowanie tekstów z wykorzystaniem algorytmu t-SNE
• Konsultacje wyboru tematu i metodologii do case study
• Prezentacja case study wykorzystującego wybraną technikę poznaną w trakcie kursu (2 zajęcia)
Rodzaj przedmiotu
Założenia (opisowo)
Koordynatorzy przedmiotu
Efekty kształcenia
WIEDZA
• Student zna popularne zastosowania języka Python w różnych obszarach badawczych
• Student zna podstawowe biblioteki służące do analizy tekstu w języku Python
• Student zna popularne metody analizy tekstu stosowane przy użyciu języka Python
• Student zna możliwości oraz ograniczenia wynikające z pracy z danymi sieciowymi
UMIEJĘTNOŚCI
- Student potrafi stworzyć i zarządzać bazą danych w języku Python
- Student umie przeanalizować duży zbiór tekstowy przy użyciu technik text miningowych
- Student umie sprawnie wizualizować dane z wykorzystaniem dobrych praktyk prezentacji
KOMPETENCJE SPOŁECZNE
- Student jest zaznajomiony z zasadami etycznego oraz legalnego przetwarzania danych
Kryteria oceniania
Prezentacja końcowa
Literatura
Hobson Lane Cole Howard, Hannes Max Hapke (2021),
Przetwarzanie języka naturalnego w akcji. Rozumienie,
analiza i generowanie tekstu w Pythonie na przykładzie
języka angielskiego, Wydawnictwo Naukowe PWN
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: