Analiza tekstu w badaniach ekonomicznych z wykorzystaniem modeli ekonometrycznych i algorytmów uczenia maszynowego 2400-PL3SL338A

W pierwszej kolejności omówione zostaną zasady pracy nad tekstem naukowym, w tym specyfika formułowania problemów, celów, pytań i hipotez badawczych, przeprowadzania przeglądu literatury, doboru metod badawczych, interpretacji wyników, a finalnie właściwej redakcji pracy licencjackiej. Ponadto, przedstawione zostaną podstawy teoretyczne i metodologiczne analizy tekstu, w tym źródła danych tekstowych, metody przetwarzania języka naturalnego, modele ekonometryczne wykorzystujące dane tekstowe oraz wybrane algorytmy uczenia maszynowego. W szczególności studenci zostaną zapoznani z metodyką analizy sentymentu, modelowania tematów, konstruowania modeli ekonometrycznych i algorytmów predykcyjnych na bazie zmiennych tekstowych. Następnie, seminarium prowadzone będzie w formie warsztatów koncentrujących się na praktycznej realizacji projektów badawczych, pozyskiwaniu i przygotowaniu danych tekstowych, implementacji wybranych metod analitycznych, prezentacji wyników oraz konsultacjach dotyczących kolejnych etapów przygotowania pracy licencjackiej.

Koordynatorzy przedmiotu

Maciej Świtała

Rodzaj przedmiotu

seminaria licencjackie

Efekty kształcenia

Student zna zasady przygotowania pracy licencjackiej, posiada wiedzę tj. z zakresu poprawnego formułowania problemów, celów, pytań i hipotez badawczych, przeprowadzania przeglądu literatury, doboru metod badawczych, interpretacji wyników, właściwej redakcji pracy licencjackiej. Student zna podstawy teoretyczne i metodologiczne analizy tekstu, potrafi dobrać metody odpowiednie do zdefiniowanego problemu badawczego. Student rozumie specyfikę metod ekonometrycznych i algorytmów uczenia maszynowego, potrafi konstruować proste modele.

Kryteria oceniania

Podstawą zaliczenia semestru zimowego jest ustalenie tematu pracy licencjackiej, prezentacja planu pracy licencjackiej w trakcie seminarium, dostarczenie rozdziału pracy licencjackiej składającego się na przegląd literatury, z którego wynikają hipotezy badawcze. Podstawą zaliczenia semestru letniego jest złożenie pracy licencjackiej.

Literatura

Bird, S., Klein, E., & Loper, E. (2009). Natural language processing with Python: analyzing text with the natural language toolkit. O'Reilly Media.

Blei, D. M., Ng, A. Y. & Jordan, M. I. (2003). Latent Dirichlet allocation. Journal of machine learning research, 3(Jan), 993-1022.

Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint, DOI: 10.48550/arXiv.1810.04805.

Friedman, J., Hastie, T., & Tibshirani, R. (2009). The elements of statistical learning: data mining, inference and prediction. Springer Series in Statistics.

Goodfellow, I., Bengio, Y., & Courville, A. (2016) Deep learning. MIT Press.

Grootendorst, M. (2022). BERTopic: Neural topic modeling with a class-based TF-IDF procedure. arXiv preprint arXiv:2203.05794.

Kherwa, P., & Bansal, P. (2020). Topic modelling: a comprehensive review. EAI Endorsed transactions on scalable information systems, 7(24).

Medhat, W., Hassan, A., & Korashy, H. (2014). Sentiment analysis algorithms and applications: A survey. Ain Shams engineering journal, 5(4), 1093-1113, DOI: 10.1016/j.asej.2014.04.011.

Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training. Retrieved from: cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf.

Ramos, J. (2003). Using tf-idf to determine word relevance in document queries. In Proceedings of the first instructional conference on machine learning (Vol. 242, No. 1, pp. 29-48).

Reimers, N., & Gurevych, I. (2019). Sentence-bert: Sentence embeddings using siamese bert-networks. arXiv preprint, DOI: 10.48550/arXiv.1908.10084.

Stevens, K., Kegelmeyer, P., Andrzejewski, D., & Buttler, D. (2012). Exploring topic coherence over many models and many topics. In Proceedings of the 2012 joint conference on empirical methods in natural language processing and computational natural language learning (pp. 952-961).

Tunstall, L., Von Werra, L., & Wolf, T. (2022). Natural language processing with transformers. Building Language Applications with Hugging Face. 1st Edition. O'Reilly Media.

Wankhade, M., Rao, A.C.S. & Kulkarni, C. (2022). A survey on sentiment analysis methods, applications, and challenges. Artificial Intelligence Review 55, 5731-5780, DOI: 10.1007/s10462-022-10144-1.