Analiza danych nieustrukturyzowanych ( ścieżka SAS) 2400-ZEWW330
1. Wprowadzenie do metod analizy danych nieustrukturyzowanych. Techniki Data Mining, Text Mining, Web Mining
2. Funkcjonalności i działanie programu SAS Enterprise Miner 4.3 i Text Miner 3.1.
3. Funkcjonalności i działanie programu SAS Enterprise Miner 5.3 i Text Miner 3.2
4. Metody przeszukiwania informacji tekstowych. Dekompozycja danych tekstowych. Ilościowa reprezentacja zbioru dokumentów.
5. Automatyczne przetwarzanie danych tekstowych. Identyfikacja słów kluczowych.
6. Stop lista, start lista. Formy kanoniczne. Funkcje ważące. Wagi częstości.
7. Transformacja danych tekstowych. Redukcja wymiarów macierzy częstości.
8. Wizualizacja danych. Tworzenie drzewa powiązań.
9. Analiza dużych repozytoriów dokumentów. Zastosowanie makra %tmfilter w procesie text mining.
10. Analiza treści stron WWW. Zastosowanie makra %tmfilter w procesie web mining.
11. Metody klasteryzacji. Analiza profili segmentów i skupień.
12. Modele klasyfikacji. Scoring. Ocena wygenerowanego modelu.
13. Grupowanie danych tekstowych i modelowanie prognostyczne.
14. Prognozwanie na podstawie nieuporządkowanego tekstu.
15. Współpraca z innymi programami pakietu SAS Enterprise Miner. Inne narzędzia Text Miningu.
Rodzaj przedmiotu
Założenia (opisowo)
Koordynatorzy przedmiotu
Efekty kształcenia
Wiedza opanowana poprzez uczestnictwo w przedmiocie to znajomość poszczególnych metod statystycznych przydatnych w analizie danych nieustrukturyzowanychi oraz ich przykładowe zastosowania umożliwiające znajdywanie nieznanych zależności, wzorców i trendów pomiędzy danymi w zgromadzonych zbiorach danych, a także praktyczna umiejętność posługiwania się programem SAS Enterprise Miner oraz SAS Text Miner.
KW01, KW02, KW03, KU01, KU02, KU03, KK01, KK02, KK03
Kryteria oceniania
Zaliczenie studenci uzyskują na podstawie pracy zaliczeniowej polegającej na samodzielnie zaprojektowanym i zrealizowanym modelu analizy danych tekstowych.
Literatura
Literatura obowiązkowa:
[1] Lasek M., Pęczkowski M., Enterprise Miner. Wykorzystywanie narzędzi Data Mining w systemie SAS, podręcznik w przygotowaniu.
[2] Lasek M., Data Mining. Zastosowania w analizach i ocenach klientów bankowych, Oficyna Wydawnicza „Zarządzanie i finanse”, Warszawa 2002.
[3] Witkowska D., Sztuczne sieci neuronowe i metody statystyczne. Wybrane zagadnienie finansowe, Wydawnictwo C.H. Beck, Warszawa 2002.
[4] Text Mining Using SAS Software, SAS Education.
Literatura uzupełniająca:
[1] Frątczak E., Pęczkowski M., Sienkiewicz K., Skaskiewicz K., Statystyka od podstaw z systemem SAS, ISBN 83-7225-179-7, Oficyna Wydawnicza Szkoły Głównej Handlowej, Warszawa 2002.
[2] Giudici P., Applied Data Mining. Statistical Methods for Business and Industry, Wiley 2003.
[3] Hadasik D. (1998), Upadłość przedsiębiorstw w Polsce i metody jej prognozowania, Wydawnictwo Akademii Ekonomicznej w Poznaniu, Poznań.
[4] Jagielska J., Matthews Ch. Whitfort T. (1999), An investigation into the application of neural networks, fuzzy logic, genetic algorithms, and rough sets to automated knowledge acquisition for classification problems, Neurocomputing 24, 37-54.
[5] Jain L.B., Martin N.M. (eds.) (1999), Fusion of Neural Networks, Fuzzy Sets, and Genetic Algorithms. Industrial Applications, CRC Press.
[6] Kudyba S., Managing Data Mining. Advice from Experts, IT Solutions Series, ISBN 1-59140-243-3, CyberTech Publishing, Idea Group Inc. 2004.
[7] Nelles O. (2001), Nonlinear System Identification. From Classical Approaches to Neural Networks and Fuzzy Models, Springer Verlag, Berlin Heidelberg.
[8] Osowski S. (2001), Sieci neuronowe wykorzystujące systemy wnioskowania rozmytego, Software nr 2, 18-20 i 62.
[9] Raudys Š. (2001), Statistical and Neural Classifiers. An Integrated Approach to Design, Springer-Verlag, London.
[10]Ribeiro R., Zimmermann H.-J., Yager R., Kacprzyk J. (1999), Soft Computing in Financial Engineering, Studies in Fuzzines and Soft Computing, vol. 28, Physica Verlag, Heidelberg.
[11]Wang J. (ed.), Data Mining. Opportunities and Challenges, IRM Press 2003.
[12]Witten J.H., Frank E. (2000), Data Mining. Practical Machine Learning Tools and Techniques with Java Implementations, Academic Press, Morgan Kaufmann Publishers.
[13]Zwierz U., Wstęp do systemu SAS, Oficyna Wydawnicza Szkoły Głównej Handlowej, Warszawa 2001.
[14]Data & Text Mining, wydawca Prentice Hall
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: