Semantyka eksperymentalna - moduł semantyki dystrybucyjnej 3501-KOG-SE-SD

Tematem zajęć są zagadnienia dotyczące paradygmatu semantyki dystrybucyjnej. Semantyka dystrybucyjna jest teorią możliwą do zaimplementowania, stosowaną m.in. w semantycznym przetwarzaniu języka naturalnego. Cechą specyficzną semantyki dystrybucyjnej jest to, że dobrze modeluje proces określania podobieństwa/powiązania semantycznego przez ludzi, oraz określa znaczenia słów na podstawie ich użycia w języku. Znaczenie danego słowa jest szacowane na postawie dystrybucji słowa (tj. kontekstów leksykalnych i gramatycznych, w których to słowo się pojawia) i reprezentowane w postaci np. wektora dystrybucyjnego. Na zajęciach zostaną przedstawione narzędzia programistyczne, pozwalające na generowanie modeli dystrybucyjnych, a także praktyczne zastosowania tych modeli.

Zajęcia 1: Podstawy teoretyczne semantyki dystrybucyjnej
- hipoteza dystrybucyjna
- reprezentacje wektorowe słów
- miary powiązania i podobieństwa
Zajęcia 2: Modele dystrybucyjne (1)
- model frekwencyjny TF-IDF
- model syntagmatyczny LSA
Zajęcia 3: Wektorowe reprezentacje słów jako komponent sieci neuronowych
- idee perceptronu i neuronu sigmoidalnego
- koncepcja i budowa sieci neuronowej
- optymalizacja i uczenie sieci neuronowych
Zajęcia 4: Modele dystrybucyjne (2)
- idea zanurzeń słownych (ang. word embedding)
- modele językowe
- zanurzenia słowne typu word2vec i fastText
Zajęcia 5: Modele dystrybucyjne (3)
- głębokie modele językowe
- kontekstowe zanurzenia słowne typu Elmo i BERT
Zajęcia 6: Ewaluacja modeli dystrybucyjnych
- ewaluacja wewnętrzna (ang. intrinsic evaluation)
- ewaluacja in vivo (ang. extrinsic evaluation)
- praktyczne zastosowania modeli dystrybucyjnych
Zajęcia 7: Semantyka kompozycyjno-dystrybucyjna
- idee i metody kompozycji semantycznej
- praktyczne zastosowania modeli dystrybucyjnych

Rodzaj przedmiotu

fakultatywne

Tryb prowadzenia

w sali

Założenia (opisowo)

Umiejętność programowania w języku Python

Efekty kształcenia

Nabyta wiedza:
- znajomość podstawowych zagadnień związanych z paradygmatem semantyki dystrybucyjnej,
- znajomość narzędzi NLP umożliwiających modelowanie dystrybucji leksykalnych i reprezentowanie znaczeń słów.

Nabyte umiejętności:
- umiejętność doboru narzędzi i zasobów (danych tekstowych) do tworzenia semantycznych modeli dystrybucyjnych,
- umiejętność weryfikacji uzyskanych wyników.

Nabyte kompetencje społeczne:
- umiejętność selekcjonowania i porządkowania informacji uzyskanych w procesie komunikacji,
- umiejętność jasnego komunikowania technicznie skomplikowanych zagadnień,
- umiejętność samodzielnego rozwiązywania problemów.

Kryteria oceniania

OD 2020/2021
Ocena końcowa na podstawie:
- wyniku realizacji samodzielnej pracy domowej polegającej na przygotowaniu danych tekstowych, które będą wykorzystane na zajęciach,
- wyników testów tzw. wejściówek.

Dopuszczalna liczba nieobecności podlegających usprawiedliwieniu: 2

DO 2019/2020
Ocena końcowa na podstawie punktacji za programistyczne prace domowe (i ewentualnie wyniku egzaminu)

Literatura

- Daniel Jurafsky i James H. Martin (2017) Speech and Language Processing (oraz draft 3 edycji https://web.stanford.edu/~jurafsky/slp3/)
- Stephen Clark (2015) Vector Space Models of Lexical Meaning. W: S. Lappin i C. Fox (red.) The Handbook of Contemporary Semantic Theory. s. 493-522. John Willey & Sons.
- Aktualne artykuły naukowe

Więcej informacji

Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb:

Strona przedmiotu 3501-KOG-SE-SD w USOSweb