Inżynieria lingwistyczna 3501-KOG-MS2-IL

Seminarium dotyczy przetwarzania języka naturalnego. Omówione zostaną fundamentalne wyzwania w pracy z tekstem: ujednoznacznienie morfoskładniowe, ekstrakcja informacji, modele językowe, matematyczna reprezentacja słów, semantyki leksykalne i kompozycyjne. Przedstawiane są najważniejsze metody stosowane do ww. zagadnień - zarówno statystyczne jak i oparte na sztucznej inteligencji. Istotną częścią kursu będzie przeanalizowanie metodyki pozwalającej na wyprowadzenie reprezentacji semantycznej zdania. Uczestnicy będą rozwiązywać problemy praktyczne korzystając z środowiska programistycznego, co pozwoli na samodzielną analizę tekstu w przyszłości.

Program:
1. Wprowadzenie. Terminologia (inżynieria lingwistyczna, lingwistyka informatyczna, NLP, HLT itp.), historia, zastosowania, dwa paradygmaty (symboliczny i statystyczny). Narzędzia programistyczne: Python i NLTK. (1 seminarium)
2. Sztuczne sieci neuronowe przy przetwarzaniu języka naturalnego - geneza, zastosowania. (1 seminarium)
3. Językoznawstwo korpusowe, korpusy języka angielskiego, systemy znaczników (tagsety) dla języka angielskiego. Korpusy polskie, system morfosyntaktyczny języka polskiego, polskie systemy znaczników. (1 seminarium)
4. Analizatory morfologiczne, dezambiguatory, tagery. Dezambiguacja morfosyntaktyczna: metody lingwistyczne i statystyczne. (2–3 seminaria)
5. Matematyczna reprezentacja słów. Embeddings. Badanie zależności w reprezentacjach wektorowych. Metody alternatywne do reprezentacji wektorowych. (2-3 seminaria)
6. Modele językowe oparte na N-gramach i sztucznych sieciach neuronowych. Ekstrakcja informacji. (2-3 seminaria)
7. Semantyka: leksykalna i kompozycyjna, słowniki semantyczne typu wordnet (w tym polskie), reprezentacje znaczenia, formalizmy semantyczne, Semantyka Montague. (1–2 seminaria)
8. Implementacja fragmentów gramatyki języka polskiego. Semantyka w gramatykach. (1-2 seminaria)
9. Zastosowania parserów semantycznych i podsumowanie. (1 seminarium)

Rodzaj przedmiotu

monograficzne

Tryb prowadzenia

w sali

Efekty kształcenia

Wiedza:
- znajomość wybranych technik znakowania morfoskładniowego, w tym technik dezambiguacji interpretacji morfoskładniowych.
- znajomość wybranych technik uczenia maszynowego przy pracy analizie tekstu
- znajomość wybranych technik matematycznej reprezentacji słów oraz modeli językowych
- znajomość wybranych zasobów wykorzystywanych w przetwarzaniu języka naturalnego
- znajomość typów i technik przetwarzania składniowego
- znajomość metod wzbogacania gramatyk formalnych o mechanizmy przetwarzania semantycznego

Nabyte umiejętności:
- umiejętność implementacji metod uczenia maszynowego dla typowych problemów inżynierii lingwistycznej
- umiejętność wyprowadzania reprezentacji semantycznej zdania
- umiejętność korzystania ze znakowanych morfosyntaktycznie korpusów
- umiejętność ekstrakcji informacji z tekstu

Nabyte kompetencje społeczne:
- umiejętność analizy korpusów pod kątem zagadnień społecznych

Kryteria oceniania

OD 2020/2021
Jeden projekt semestralny, w którym są wykorzystane techniki omawiane na zajęciach.
Dopuszczalna liczba nieobecności podlegających usprawiedliwieniu: 2

DO 2019/2020
Zaliczenie na ocenę na podstawie wyników projektów.

Ocena na podstawie wyników dwóch projektów: samodzielnego projektu śródsemestralnego
dotyczącego ujednoznaczniania morfoskładniowego lub matematycznej reprezentacji słów
oraz samodzielnego lub grupowego (maksymalnie 2–3-osobowego) projektu
implementacyjnego związanego z gramatykami unifikacyjnymi lub modelami językowymi.
Opis wyników projektu w postaci krótkiego artykułu i prezentacja wyników projektu.

Literatura

Materiały własne oraz wybrane fragmenty monografii:
Steven Bird, Ewan Klein i Edward Loper 2016, „Natural Language Processing with Python”
(2. wydanie; http://www.nltk.org/book/).
Daniel Jurafsky i James H. Martin 2009, „Speech and Language Processing”, Prentice-Hall
(2. wydanie).

Więcej informacji

Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb:

Strona przedmiotu 3501-KOG-MS2-IL w USOSweb