Wprowadzenie do dużych modeli językowych 2400-SP-DS-LLM
Kurs ma na celu przegląd architektur sieci neuronowych wykorzystywanych do przetwarzania i ekstrakcji informacji z danych tekstowych oraz generowania tekstu. Na wstępie uczestnicy kursu zostaną zaznajomieni z reprezentacjami semantycznymi słów z wykorzystaniem modelu Word2Vec,
obejmującego architektury CBOW i Skip-gram.
Następnie kursanci zostaną zapoznani z architekturami sieci neuronowych opartymi o tzw. mechanizm samouwagi, czyli transformerami. Omówione zostaną modele generujące kontekstowe reprezentacje tekstu, tzw. enkodery, oraz generujące tekst, tzw. dekodery, wraz z przykładowymi ich zastosowaniami. W trakcie zajęć pokazane zostanie w jaki sposób
korzystać ze wstępnie wytrenowanych modeli dostępnych w Internecie, jak również w jaki sposób dostosowywać je do swoich celów, czyli jak przeprowadzać tzw. dostrajanie.
Koordynatorzy przedmiotu
Rodzaj przedmiotu
Tryb prowadzenia
Kryteria oceniania
Test zaliczeniowy - do zaliczenia wymagana jest 50% poprawnych odpowiedzi na 10 pytań.
Literatura
Materiały przygotowywane przez wykładowcę i udostępniane uczestnikowi na platformie Google Drive.