Text-mining i web-scraping z wykorzystaniem języka Python 3500-SCC-text
Obecna rewolucja AI w dużej mierze opiera się na dużych
modelach językowych (LLM - Large Language Models), które
umożliwiają efektywną ekstrakcję kluczowych informacji z dużych
zbiorów danych tekstowych. Szybki rozwój metod przetwarzania
języka naturalnego (NLP - Natural Language Processing) oraz text-
miningu, dostępność modeli sztucznej inteligencji (m.in. na
platformie Hugging Face) oraz popularność języka Python jako
środowiska rozwoju AI stwarza ogromny potencjał do badań nad
zjawiskami społecznymi.
W ramach zajęć studentki i studenci zdobędą praktyczną wiedzę na
temat wykorzystania języka Python do gromadzenia i eksploracji
danych tekstowych oraz zastosowania tych metod w badaniach
współczesnych zjawisk społecznych.
Podczas kursu poruszone zostaną następujące zagadnienia:
- Wykorzystanie API do zbierania danych z portali internetowych
oraz z mediów społecznościowych (Mastodon)
- Zbieranie wiadomości z portali internetowych z wykorzystaniem
BeautifulSoup oraz Selenium,
- Przegląd metod Natural Language Processing
- Eksploracja tekstów: Modelowanie tematyczne i analiza
sentymentu
- Wykorzystanie modeli LLM do zadań text-miningowych
Zaliczenie kursu będzie się opierać na przygotowaniu projektu
zaliczeniowego w ramach pracy zespołowej. Projekt będzie się
skupiał na analizie wybranego zjawiska społecznego na podstawie
empirycznego badania.
Plan zajęć:
- Przypomnienie podstaw języka Pythona
- Sieć i dane: biblioteki Requests i BeautifulSoup
- Zbieranie danych z platformy Mastodon z wykorzystaniem
API
- Web-scraping z Selenium (dynamiczne strony internetowe)
- Zbieranie wiadomości z portali internetowych (biblioteka
Newspaper)
- Przegląd metod Natural Language Processing
- Biblioteka NLTK: tokenizacja słów, stemming, n-gramy,
lematyzacja, tagowanie części mowy
- Reprezentacja wektorowa słów
- Platforma Hugging Face i praca z modelami LLM
- Analiza sentymentu
- Modelowanie tematyczne z BERTopic
- Konsultacje dot. wyboru tematu i metodologii
- Prezentacja projektu (2 zajęcia)
Rodzaj przedmiotu
Tryb prowadzenia
Założenia (opisowo)
Koordynatorzy przedmiotu
Efekty kształcenia
K_W05 zna i rozumie w pogłębionym stopniu procesy zachodzące
w społeczeństwie polskim i globalnym oraz ich wpływ na postawy i
instytucje społeczne w kontekście fundamentalnych wyzwań
współczesności
K_W06 zna i rozumie pojęcia i zasady z zakresu ochrony własności
intelektualnej oraz prawa autorskiego
K_U02 potrafi krytycznie selekcjonować i interpretować informacje
niezbędne do przeprowadzenia twórczych analiz socjologicznych,
korzystając z różnych źródeł (w języku rodzimym i obcym na
poziomie B2+) oraz posługując się nowoczesnymi technikami
informacyjno-komunikacyjnymi
K_U05 potrafi prowadzić debatę, proponując tematy,
argumentując stawiane tezy i dzieląc się posiadaną wiedzą w
odwołaniu do literatury naukowej z zakresu socjologii i dyscyplin
pokrewnych
K_U08 potrafi uczyć się całe życie, uzupełniać wiedzę, doskonalić i
poszerzać swoje umiejętności zawodowe oraz wspierać inne osoby
w tym zakresie
K_S02 jest gotów do inspirowania, inicjowania i udziału w procesie
tworzenia i ewaluacji badań socjologicznych, w tym projektowania,
prezentowania i realizacji własnych rozwiązań
K_S03 jest gotów do inicjowania i inspirowania działań na rzecz
interesu publicznego z wykorzystaniem wiedzy i umiejętności
socjologicznych oraz organizacji inicjatyw o charakterze
społecznym
K_S05 jest gotów do przyczyniania się do budowania zasobu
wiedzy i uczestniczenia w życiu naukowym środowiska
socjologicznego
Kryteria oceniania
Przygotowanie projektu badawczego: Zaliczenie kursu będzie się
opierać na przygotowaniu projektu zaliczeniowego w ramach pracy
zespołowej. Projekt będzie się skupiał na analizie wybranego
zjawiska społecznego na podstawie empirycznego badania.
Dopuszczalna liczba nieobecności podlegających
usprawiedliwieniu: 2
Zasady zaliczania poprawkowego: takie same jak w I terminie
(praca indywidualna lub w zespole)
Literatura
Hobson Lane Cole Howard, Hannes Max Hapke (2021),
Przetwarzanie języka naturalnego w akcji. Rozumienie, analiza i
generowanie tekstu w Pythonie na przykładzie języka angielskiego,
Wydawnictwo Naukowe PWN
Własne materiały dydaktyczne przygotowane na podstawie
różnych źródeł (np. z dokumentacji z bibliotek)
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: