Zastosowanie metod eksploracji danych (Data Mining) w badaniach ekonomicznych ( ścieżka SAS) 2400-ZEWW236
Na zajęciach podejmowane będą m.in. następujące zagadnienia:
1. Wstępna analiza danych: metody analizy danych jakościowych; metody analizy danych ilościowych.
2. Regresja liniowa i logistyczna.
3. Analiza czynnikowa i analiza głównych składowych.
3. Drzewa klasyfikacyjne i regresyjne. Gradient boosting. Random forest.
4. Wielowarstwowe jednokierunkowe sieci neuronowe.
5. Analiza skupień. Metoda k-średnich. Kryterium CCC. Sieci neuronowe Kohonena. Analiza skupień dla zmiennych.
6. Analiza asocjacji i sekwancji
7. Zasady posługiwania się programem SAS Viya. Organizacja zbiorów danych wykorzystywanych w analizach Data Mining. Tworzenie projektów analizy danych i zarządzanie projektami.
8. Metodyka procesu analizy danych SEMMA. Narzędzia eksploracji danych wspierające analizy w poszczególnych krokach SEMMA. Etapy w metodyce SEMMA a budowa diagramów analizy danych. Ogólne reguły budowy diagramów.
9. Przygotowanie danych do analiz Data Mining. Wstępna analiza danych wejściowych. Przeprowadzanie transformacji zmiennych. Rozwiązywanie problemu brakujących wartości. Wybór zmiennych na potrzeby eksploracji danych.
10. Metody prognozowania - standardy modelowania i analiza wyników (porównywanie modelu predykcyjnych). Ocena poprawności prognoz. Generowanie raportów z projektów eksploracji danych.
Przedmiot jest częścią Data Mining Certificate Program, prowadzonego przy współpracy z SAS Institute Polska.
Rodzaj przedmiotu
Założenia (opisowo)
Koordynatorzy przedmiotu
Efekty kształcenia
Po ukończeniu zajęć studenci powinni posiadać umiejętność przeprowadzania eksploracji danych za pomocą poznanych metod Data Mining oraz posługiwania się programem SAS Viya.
Efekty kształcenia w ramach kategorii - wiedza, umiejętności, kompetencje społeczne:
1) Wiedza
Student posiada rozeznanie w zakresie dostępnych metod i technik Data Mining oraz wie jak je należy stosować na potrzeby badań ekonomicznych.
2) Umiejętności
Student potrafi wybrać i umie wykorzystać właściwe metody i techniki dla konkretnych zastosowań, a w razie potrzeby umie zmodyfikować (przystosować) metody i techniki, tak aby były jak najbardziej skuteczne i efektywne w przeprowadzanych w danym przypadku badaniach.
3) Kompetencje społeczne
Student jest świadomy jakie są możliwości i zalety stosowania metod i technik Data Mining w badaniach ekonomicznych oraz korzyści jakie można dzięki ich stosowaniu uzyskać, ale także zdaje sobie sprawę z wad i ograniczonej przydatności tych metod i technik.
KW01, KW02, KW03, KU01, KU02, KU03, KK01, KK02, KK03
Kryteria oceniania
Do zaliczenia zajęć wymagana jest obecność na zajęciach.
50% oceny z przedmiotu – przygotowanie i prezentacja recenzji artykułu naukowego bazującego na metodologii data miningu (recenzja 30%, prezentacja 20%).
50% oceny z przedmiotu – prace domowe. Po każdych zajęciach na platformie będą publikowane krótkie ćwiczenia do wykonania w programie SAS Viya.
Literatura
1] Applied Analytics Using SAS Enterprise Miner 5.3. Course Notes, część I i część II, SAS Institute Inc. Cary, NC, USA, ISBN 978-1-59994-818-8, 2008.
[2] Cabena P. I in., Discovering Data Mining: From Concept to Implementation, Prentice Hall, Upper Saddle River, NJ, 1998.
[3] Chakrabarti S., Cox E., Frank E. i in., Data Mining. Know it all, Elsevier Inc. 2009.
[4] Everitt B.S., The Cambridge Dictionary of Statistics, Cambridge University Press, 1998.
[5] Han J., Kamber M., Pei J., Data Mining. Concepts and Techniques, Morgan Kaufmann - Elsevier, 2012.
[6] Hand D. I in., Principles of Data Mining, MIT Press, Cambridge University Press, 2001.
[7] Larose D.T., Metody i modele eksploracji danych, Wydawnictwo Naukowe PWN, ISBN 978-83-01-15467-7, Warszawa 2008.
[8] Larose D.T., Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych, Wydawnictwo Naukowe PWN, ISBN-13: 978-83-01-14836-2; ISBN-10: 83-01-14836-5, Warszawa 2006.
[9] Lasek M., Metody Data Mining w analizowaniu i prognozowaniu kondycji ekonomicznej przedsiębiorstw. Zastosowania SAS Enterprise Miner, Difin, ISBN 978-83-7251-695-4, Warszawa 2007.
[10] Lasek M., Nowak E., Pęczkowski M., Association and Sequence Rules of Events in an Investment Analysis of Agrotourism Farms/ Zastosowanie reguł asocjacji i sekwencji zdarzeń do analizy działalności inwestycyjnej gospodarstw agroturystycznych (artykuły w dwóch wersjach językowych: angielskim i polskim), Turyzm, 18/2, 2008, s. 57-73.
[11] Lasek M., Od danych do wiedzy. Metody i techniki „Data Mining”, Optimum, nr 2 (22), s. 17-37, ISSN 1506-7637, 2004.
[12] Lasek M., Pęczkowski M., Analiza zróżnicowania pięciuset największych firm Rzeczpospolitej, Ekonomiczno-Informatyczny Kwartalnik Teoretyczny Wyższej Szkoły Ekonomiczno-Informatycznej w Warszawie, nr 18, październik-grudzień 2008, ISSN 1733-3156, 2008, s. 64-72.
[13] Lasek M., Pęczkowski M., Wierzba D., Zastosowanie analiz Data Mining w przewidywaniu groźby upadłości lub konieczności prowadzenia postępowania układowego przedsiębiorstwa – budowa modeli predykcyjnych, ocena ich jakości i wybór modelu, Studia i materiały Polskiego Stowarzyszenia Zarządzania Wiedzą, nr 22, 2009, ISSN 1732-324X, s. 81-95.
[14] Lasek M., Pęczkowski M., Wykresy lift charts jako narzędzia wyboru modeli eksploracji danych Data Mining, w: J. Nazarko, L. Kiełtyka, (redakcja naukowa), Narzędzia informatyczne w zarządzaniu i inżynierii produkcji, Centrum Doradztwa i Informacji Difin, s. 228-243, ISBN 978-83-7251-920-7, Warszawa 2008.
[15] Lasek M., Pęczkowski M., SAS Enterprise Miner jako przykład programu wspomagania analiz Data Mining, [w:] R, Mosdorf, N.Siemieniuk (red.) Zastosowanie technologii informacyjnych w zarządzaniu wiedzą i procesami gospodarczymi, Wydawnictwo Wyższej Szkoły Finansów i Zarządzania w Białymstoku, Białystok 2011, s. 131-145.
[16] Lasek M., Pęczkowski M., Grupowanie zmiennych w procesach eksploracji danych, Ekonomia i Zarządzanie, t. 2, nr 1, Politechnika Białostocka 2010, s. 83-94.
[17] LasekM., Peczkowski M., Metodyka procesu eksploracji danych SEMMA, Prace i Materiały Wydziału Zarządzania Uniwersytetu Gdańskiego, zeszyt: Finanse w warunkach kryzysu. Wybrane zagadnienia, nr 3, Gdańsk 2010, s 117-133.
[18] Lasek M., Peczkowski M., Graficzna ocena jakości predykcyjnych Data Mining, [w:] R. Kucęba, J.Nazarko (red), Logistyczne uwarunkowania zarządzania przedsiębiorstwem, Wydawnictwo Politechniki Cżestochowskiej, seria minografie 178, Częstochowa 2009, 184-191.
[19] Maimon O., Rokach L.(eds.), Data Mining and Knowledge Discovery Handbook, Springer Science+Business Media Inc., New York 2005.
[20] Markov Z., Larose D.T., Eksploracja zasobów internetowych. Analiza struktury, zawartości i użytkowania sieci WWW, Wydawnictwo Naukowe PWN, ISBN 978-83-01-15868-2, Warszawa 2009.
[21] Matignon R., Data Mining using SAS Enterprise Miner, John Wiley & Sons, Inc., ISBN 978-0-470-14901-0, New Jersey 2007.
[22] Pęczkowski M., Wprowadzenie do Data Mining, Studia Podyplomowe: Metody statystyczne w biznesie, WNE UW, Warszawa 2011 [materiały kursowe].
[23] Reference Help – Enterprise Miner 6.2, SAS Institute Inc., Cary, NC, USA 2009.
[24] Taniar D. (ed.), Data Mining and Knowledge Discovery Technologies, IGI Global 2008.
[25] Witten I.H., Frank E., Hall M.A., Data Mining. Practical Machine Learning. Tools and Techniques, Morgan Kaufmann - Elsevier, 2011.
[26] Ye N. (ed.), The Handbook of Data Mining, Lawrence Erlbaum AssociatesInc. Publishers, ISBN 0-8058-4081-8, New Jersey 2003.
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: