Text Mining (ścieżka SAS) 2400-ZEWW968
Celem zajęć jest kompleksowe zapoznanie studentów z nowoczesnymi metodami eksploracji i analizy danych tekstowych przy użyciu narzędzi dostępnych w środowisku SAS. W związku z rosnącym znaczeniem źródeł danych nieustrukturyzowanych, takich jak media społecznościowe, fora internetowe, dokumenty korporacyjne czy raporty, umiejętność ich przetwarzania i analizy staje się nieodzownym elementem warsztatu analityka danych.
W ramach przedmiotu studenci poznają zarówno teoretyczne podstawy przetwarzania języka naturalnego, jak i praktyczne techniki przygotowania i czyszczenia danych tekstowych, w tym m.in. tokenizację, usuwanie stop-słów, normalizację tekstu oraz konwersję do struktur umożliwiających dalsze analizy (np. macierze częstości, wektory cech). Zajęcia będą koncentrować się na wykorzystaniu funkcjonalności oferowanych przez SAS Text Miner oraz innych komponentów środowiska SAS służących do analizy danych nieustrukturyzowanych.
Studenci nauczą się stosować wybrane metody eksploracji danych tekstowych, takie jak analiza częstości, grupowanie dokumentów, analiza sentymentu, ekstrakcja tematów czy budowa modeli klasyfikacyjnych opartych na algorytmach uczenia maszynowego. Szczególny nacisk zostanie położony na praktyczne zastosowanie tych metod w kontekście rzeczywistych problemów analitycznych, takich jak analiza opinii klientów, monitorowanie narracji czy wspomaganie procesów decyzyjnych na podstawie danych nieustrukturyzowanych.
Integralnym elementem zajęć będzie samodzielna praca studentów, którzy będą mieli okazję przejść przez pełny cykl analityczny - od przygotowania danych, przez eksplorację i modelowanie, aż po interpretację wyników i ich prezentację. Przedmiot ma na celu nie tylko rozwinięcie umiejętności technicznych, ale również kształtowanie kompetencji niezbędnych do świadomego i odpowiedzialnego wykorzystania metod text miningu w różnych dziedzinach biznesu, administracji i nauki.
Szacunkowy nakład pracy studenta: 2ECTS x 25h = 50h
(K) - godziny kontaktowe (S) - godziny pracy samodzielnej
ćwiczenia (zajęcia): 30h (K) 0h (S)
konsultacje: 2h (K) 0h (S)
przygotowanie do ćwiczeń: 0h (K) 10h (S)
praca z materiałami dodatkowymi: 0h (K) 8h (S)
Razem: 32h (K) + 18h (S) = 50h
Rodzaj przedmiotu
Koordynatorzy przedmiotu
Efekty kształcenia
Efekty uczenia się (kody): K_W01, K_W02, K_U01, K_K01.
Po ukończeniu przedmiotu, student:
Wiedza
zna metody eksploracji danych tekstowych i rozumie ich specyfikę,
zna funkcje i możliwości środowiska SAS w zakresie analizy danych nieustrukturyzowanych,
potrafi scharakteryzować proces przetwarzania języka naturalnego, w tym metody przygotowania danych tekstowych do analizy,
rozumie znaczenie analizy danych tekstowych w kontekście rzeczywistych problemów biznesowych, społecznych i naukowych.
Umiejętności
potrafi przygotować zbiór danych tekstowych do analizy z wykorzystaniem technik text mining,
potrafi zastosować wybrane metody analizy tekstu, takie jak analiza częstości, analiza sentymentu, ekstrakcja tematów czy grupowanie dokumentów,
potrafi przeprowadzić pełny cykl analityczny — od przygotowania danych po prezentację wyników,
potrafi wykorzystać narzędzia SAS do praktycznego rozwiązywania problemów analitycznych związanych z danymi tekstowymi.
Kompetencje społeczne
wykazuje samodzielność w stosowaniu wiedzy teoretycznej z zakresu eksploracji i analizy danych tekstowych oraz w posługiwaniu się rzeczywistymi przykładami empirycznymi,
wykazuje odpowiedzialność i samokontrolę poprzez doświadczenie uczenia się w warunkach wyboru metod i narzędzi analitycznych,
jest systematyczny dzięki organizacji pracy własnej i realizacji zadań praktycznych podczas zajęć,
wykazuje zainteresowanie wykorzystaniem analizy danych tekstowych do rozwiązywania aktualnych problemów biznesowych, społecznych i naukowych,
jest rzetelny i uczciwy poprzez konieczność przestrzegania zasad poprawności metodologicznej oraz wymagań zaliczeniowych i egzaminacyjnych.
Kryteria oceniania
Zaliczenie przedmiotu odbywa się na podstawie aktywności podczas zajęć (50%) oraz projektu zaliczeniowego (50%), polegającego na samodzielnym zaprojektowaniu i przeprowadzeniu pełnego procesu analizy danych tekstowych z wykorzystaniem poznanych metod i narzędzi.
Literatura
Literatura obowiązkowa (wybrane rozdziały):
Spinczyk D., Dzieciątko M., Text Mining: metody, narzędzia i zastosowania, PWN 2016
Silge J., Robinson D., Text Mining with R: A Tidy Approach, O’Reilly 2024, https://www.tidytextmining.com/
Wróblewski P., Machine learning i natural language processing w programowaniu. Podręcznik z ćwiczeniami w Pythonie, Helion, 2024
Literatura uzupełniająca (wybrane rozdziały):
Gutman A. J., Goldmeier J., Analityk danych. Przewodnik po data science, statystyce i uczeniu maszynowym, Helion 2023
Jurafsky D., Martin J. H., Speech and Language Processing, 3rd ed., 2025, https://web.stanford.edu/~jurafsky/slp3/
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: