Wprowadzenie do dużych modeli językowych 2400-SP-DS-LLM

Kurs ma na celu przegląd architektur sieci neuronowych wykorzystywanych do przetwarzania i ekstrakcji informacji z danych tekstowych oraz generowania tekstu. Na wstępie uczestnicy kursu zostaną zaznajomieni z reprezentacjami semantycznymi słów z wykorzystaniem modelu Word2Vec,
obejmującego architektury CBOW i Skip-gram.
Następnie kursanci zostaną zapoznani z architekturami sieci neuronowych opartymi o tzw. mechanizm samouwagi, czyli transformerami. Omówione zostaną modele generujące kontekstowe reprezentacje tekstu, tzw. enkodery, oraz generujące tekst, tzw. dekodery, wraz z przykładowymi ich zastosowaniami. W trakcie zajęć pokazane zostanie w jaki sposób
korzystać ze wstępnie wytrenowanych modeli dostępnych w Internecie, jak również w jaki sposób dostosowywać je do swoich celów, czyli jak przeprowadzać tzw. dostrajanie.

Koordynatorzy przedmiotu

Piotr Wójcik

Rodzaj przedmiotu

fakultatywne

Tryb prowadzenia

zdalnie

Kryteria oceniania

Test zaliczeniowy - do zaliczenia wymagana jest 50% poprawnych odpowiedzi na 10 pytań.

Literatura

Materiały przygotowywane przez wykładowcę i udostępniane uczestnikowi na platformie Google Drive.