Inżynieria lingwistyczna 3800-KOG-MS2-IL
Seminarium dotyczy przetwarzania języka naturalnego. Omówione zostaną fundamentalne wyzwania w pracy z tekstem: ujednoznacznienie morfoskładniowe, ekstrakcja informacji, modele językowe, matematyczna reprezentacja słów, generowanie tekstu. Przedstawiane są najważniejsze metody stosowane do ww. zagadnień - zarówno statystyczne jak i oparte na uczeniu maszynowym. Uczestnicy będą rozwiązywać problemy praktyczne korzystając z środowiska programistycznego, co pozwoli na samodzielną analizę tekstu w przyszłości.
Program:
1. Wprowadzenie. Terminologia, historia, zastosowania, paradygmaty. Narzędzia programistyczne: Python, Colab, Git. (1 seminarium)
2. Sztuczne sieci neuronowe przy przetwarzaniu języka naturalnego - geneza, zastosowania. (1-2 seminarium)
3. Językoznawstwo korpusowe, korpusy języka angielskiego, systemy znaczników (tagsety) dla języka angielskiego. Korpusy polskie, system morfosyntaktyczny języka polskiego, polskie systemy znaczników. (1 seminarium)
4. Analizatory morfologiczne, dezambiguatory, tagery. Dezambiguacja morfosyntaktyczna: metody lingwistyczne i statystyczne. (1-2 seminaria)
5. Matematyczna reprezentacja słów. Embeddings. Badanie zależności w reprezentacjach wektorowych. Metody alternatywne do reprezentacji wektorowych. (2-3 seminaria)
6. Modele językowe oparte na N-gramach i sztucznych sieciach neuronowych. Ekstrakcja informacji. (2-3 seminaria)
7. Generowanie tekstu w oparciu o metody statystyczne oraz przy użyciu sieci neuronowych. (1–2 seminaria)
8. Implementacja fragmentów gramatyki języka polskiego. Semantyka w gramatykach. (1-2 seminaria)
9. Etyka w przetwarzaniu języka naturalnego. (1 seminarium)
Założenia (opisowo)
Koordynatorzy przedmiotu
Efekty kształcenia
Nabyta wiedza:
- znajomość wybranych technik znakowania morfoskładniowego, w tym technik dezambiguacji interpretacji morfoskładniowych.
- znajomość wybranych technik uczenia maszynowego przy pracy analizie tekstu
- znajomość wybranych technik matematycznej reprezentacji słów oraz modeli językowych
- znajomość wybranych technik generowania tekstu
- znajomość wybranych zasobów wykorzystywanych w przetwarzaniu języka naturalnego
- znajomość typów i technik przetwarzania składniowego
Nabyte umiejętności:
- umiejętność implementacji metod uczenia maszynowego dla typowych problemów inżynierii lingwistycznej
- umiejętność wyprowadzania reprezentacji semantycznej zdania
- umiejętność korzystania ze znakowanych morfosyntaktycznie korpusów
- umiejętność ekstrakcji informacji z tekstu
Nabyte kompetencje społeczne:
- umiejętność analizy korpusów pod kątem zagadnień społecznych
Kryteria oceniania
Metody weryfikacji efektów uczenia się: Prace domowe oraz jeden projekt semestralny, w którym są wykorzystane techniki omawiane na zajęciach.
Składowe oceny końcowej i ich waga: projekt 80%, prace domowe 20%
Semestralna liczba dopuszczalnych nieobecności zajęciach oraz w wypadkach, których to dotyczy, sposoby ich zaliczania: 2
Skala ocen 5! – 95% pkt., 5 (bdb.) – od 90%, 4+ (db. plus) – od 82%, 4 (db.) – od 75%, 3+ (dst. plus) - od 68%, 3 – (dst.) od 60%, 2 – (ndst.) mniej niż 60%
Warunki dopuszczenia do poprawy: Projekt złożony w terminie
Literatura
Materiały własne oraz wybrane fragmenty monografii:
Steven Bird, Ewan Klein i Edward Loper 2016, „Natural Language Processing with Python”
(2. wydanie; http://www.nltk.org/book/).
Daniel Jurafsky i James H. Martin 2009, „Speech and Language Processing”, Prentice-Hall
(2. wydanie).
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: