Large language models 2400-ZEWW973

W ramach kursu omówione zostaną kolejno następujące zagadnienia:

1. Wprowadzenie do przetwarzania danych tekstowych:
a. tokenizacja,
b. stemming,
c. lemmatyzacja,
d. stopwords,
e. n-gramy,
f. metryki TF, IDF, TF-IDF.

2. Wprowadzenie do uczenia głębokiego:
a. neurony, warstwy, funkcje aktywacji,
b. perceptron, architektura perceptronu wielowarstwowego (MLP),
c. funkcje aktywacji: ReLU, Sigmoid, Tanh,
d. algorytm propagacji wstecznej (backpropagation),
e. gradient i optymalizacja: SGD, Adam,
f. regularyzacja, dropout,
g. normalizacja partii (batch normalization),
h. usprawnienia procesu uczenia: harmonogramy uczenia (LR scheduling), augmentacja danych,
i. filtry, sploty (convolutions), warstwy konwolucyjne,
j. maksymalne próbkowanie (max pooling), struktura CNN,
k. architektury CNN: LeNet, AlexNet, ResNet

3. Word2Vec:
a. CBOW,
b. Skip-gram.

4. Rozszerzenia i alternatywy dla Word2Vec:
a. FastText,
b. GloVe,
c. Negative Sampling,
d. Hierarchical Softmax.

5. Rekurencyjne sieci neuronowe:
a. problem zanikającego gradientu i sposoby jego rozwiązania,
b. RNN, LSTM, GRU,
c. biLSTM, ELMo.

6. Transformery:
a. mechanizm self-attention, kodowanie pozycyjne,
b. architektura transformera,
c. BERT,
d. GPT,
e. T5,
f. dostrajanie (fine-tuning),
g. uczenie transferowe (transfer learning),
h. uczenie ze wzmocnieniem z udziałem człowieka (RLHF).

Rodzaj przedmiotu

nieobowiązkowe

Założenia (opisowo)

Podstawowa znajomość języka programowania Python.

Koordynatorzy przedmiotu

Maciej Świtała

Efekty kształcenia

Studenci nauczą się jak przygotowywać dane tekstowe do dalszych analiz. Poznają oni zarówno teoretyczne podstawy działania algorytmów uczenia głębokiego, ze szczególnym uwzględnieniem tych które pozwalają na pozyskiwanie i dalsze przetwarzanie numerycznych reprezentacji tekstów tj. osadzeń słów i zdań. Oczywiście kursanci zostaną również zaznajomieni z praktycznymi aspektami konstruowania kodów programistycznych służących służących aplikacji wspomnianych rozwiązań. Po zakończeniu kursu studenci będą potrafili pozyskiwać i wykorzystywać kontekstowe reprezentacje tekstów, uwzględniając przy wyborze algorytmu specyfikę napotkanego problemu. Ponadto studenci posiądą wiedzę w zakresie tego, w jaki sposób należy mierzyć jakość modelu o danej specyfice. Będą oni również świadomi aktualnych wyzwań i problemów związanych z wykorzystywaniem dużych modeli językowych.

Kryteria oceniania

Ocena końcowa zostanie ustalona w oparciu o: projekt do wykonania poza zajęciami (70% oceny) i prezentacja projektu (30% oceny).

Literatura

Podstawowa:

Goodfellow, I., Bengio, Y., & Courville, A. (2016) Deep learning. MIT Press.
Tunstall, L., Von Werra, L., & Wolf, T. (2022). Natural language processing with transformers. Building Language Applications with Hugging Face. 1st Edition. O'Reilly Media.

Uzupełniająca:

Bird, S., Klein, E., & Loper, E. (2009). Natural language processing with Python: analyzing text with the natural language toolkit. O'Reilly Media.
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint, DOI: 10.48550/arXiv.1810.04805.
Joulin, A., Grave, E., Bojanowski, P., & Mikolov, T. (2016). Bag of tricks for efficient text classification. arXiv preprint, DOI: 10.48550/arXiv.1607.01759.
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint, DOI: 10.48550/arXiv.1301.3781.
Pennington, J., Socher, R., & Manning, C. D. (2014, October). Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) (pp. 1532-1543), DOI: 10.3115/v1/D14-1162.
Petters, M. E., Neumann M., Iyyer M., Gardner M., Clark C., Lee K., & Zettlemoyer L. (2018). Deep contextualized word representations. arXiv preprint, DOI: 10.48550/arXiv.1802.05365.
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training. Retrieved from: cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf.
Reimers, N., & Gurevych, I. (2019). Sentence-bert: Sentence embeddings using siamese bert-networks. arXiv preprint, DOI: 10.48550/arXiv.1908.10084.

Więcej informacji

Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb:

Strona przedmiotu 2400-ZEWW973 w USOSweb