Semantyka eksperymentalna - moduł analizy korpusowej 3501-KOG-SE-MAK
1. Korpusy i wyszukiwarki
Zajęcia 1. Dostępne korpusy języka polskiego i angielskiego
- omówienie korpusów NKJP, BNC oraz COCA
- struktura tekstowa korpusów
- informacje zawarte w korpusie
- proste wyszukiwanie w dostępnych do tych korpusów wyszukiwarkach
- cel praktyczny: student potrafi wyszukiwać słowa i frazy w wyszukiwarkach korpusowych dla języka polskiego i angielskiego
Zajęcia 2. Zaawansowane funkcje wyszukiwarek. Corpus Query Language.
- omówienie składni CQL
- wyrażenia regularne
- dane dotyczące czasu/kanału/rejestru itp. dokumentów zawartych w korpusie
- cel praktyczny: student potrafi konstruować złożone wyszukiwania przy użyciu wyrażeń regularnych i odpowiednich tagów zawartych w korpusie
2. Kolokacje
Zajęcia 1. Miary kolokacji
- omówienie t-score
- omówienie χ2
- omówienie Mutual Information
- omówienie logDice
- testowanie statystyczne hipotez dotyczących współwystępowania jednostek semantycznych w korpusie
- cel praktyczny: student wyposażony w dane dotyczące frekwencji i współwystępowania określonych słów potrafi obliczyć i zinterpretować poznane miary, będzie rozumiał różnice teoretyczne i praktyczne między nimi, wie również jak użyć ich do statystycznego testowania hipotez
Zajęcia 2. Miary kolokacji w wyszukiwarkach korpusowych
- statystyki dotyczące współwystępowania wyrażeń zawarte w wyszukiwarkach korpusowych
- cel praktyczny: student potrafi uzyskać dostęp do odpowiednich statystyk za pomocą wyszukiwarek korpusowych, a jeżeli nie udostępniają one akurat tych, których potrzebuje, to potrafi samemu je obliczyć na podstawie informacji o frekwencji zawartych w korpusie.
3. Używanie SketchEngine
Zajęcia 1. Czym jest i co potrafi SketchEngine?
- omówienie korpusów dostępnych w SketchEngine
- wyszukiwanie i zapisywanie wyników wyszukiwania
- dostępne w SketchEngine miary kolokacji
- omówienie funkcji WordSketch
- korpusy równoległe
- cel praktyczny: student potrafi wykorzystać swoją wiedzę i umiejętności nabyte na poprzednich zajęciach w pracy z wyszukiwarka SketchEngine
4. WordNety
Zajęcia 1. WordNet i Słowosieć
- struktura WordNetu - relacje między jednostkami semantycznymi opisywanymi w słowosieciach
- wykorzystanie WordNetów w połączeniu z korpusami
- cel praktyczny: student potrafi wykorzystywać informacje zawarte w WordNetach w pracy z kopusami językowymi
5. Programistyczna obsługa korpusów (dla chętnych)
Zajęcia 1. Korzystanie z korpusu SketchEngine przy użyciu języka Python
- omówienie API udostępnianego przez SketchEngine
- krótkie wprowadzenie do formatu JSON w Python
- cel praktyczny: student potrafi wykonać wszystkie operacje, które wykonywał do tej pory za pomocą prostych skryptów w Pythonie
Rodzaj przedmiotu
Tryb prowadzenia
Efekty kształcenia
Nabyta wiedza:
- student zna zasoby korpusowe dostępne w sieci
- student zna różne rodzaje korpusów i wie, do jakich celów można je wykorzystać
- student zna podstawowe pojęcia i terminologię z zakresu lingwistyki korpusowej
- student zna wybrane narzędzia korpusowe i wie, jak je stosować
Nabyte umiejętności:
- student umie posługiwać się wybranymi narzędziami służącymi do analizy korpusów
- student umie zanalizować wyniki danych korpusowych
- student potrafi korzystać z wybranego środowiska pracy dedykowanego korpusom
Nabyte kompetencje społeczne:
- student potrafi współpracować w zespole badawczym, korzystając z narzędzi komunikacji cyfrowej
Kryteria oceniania
W każdym tygodniu pojawi się praca domowa (łącznie 7 prac domowych, po 10 punktów każda). Ocena końcowa zależy tylko od poprawnego wykonania prac domowych.
0-35 - 2
35-50 - 3
50-60 - 4
60-70 - 5
Literatura
- Manning, C. D., & Schütze, H. (1999). Foundations of statistical natural language processing (Vol. 999). Cambridge: MIT press.
- Davies, M. (2007). Semantically-based queries with a joint BNC/WordNet database. Language and Computers, 62(1), 149-167.
- Miller, G. A. (1995). WordNet: a lexical database for English. Communications of the ACM, 38(11), 39-41.
- Miller, G. A., Beckwith, R., Fellbaum, C., Gross, D., & Miller, K. J. (1990). Introduction to WordNet: An on-line lexical database. International journal of lexicography, 3(4), 235-244.
- Kilgarriff, A., Rychly, P., Smrz, P., & Tugwell, D. (2004). Itri-04-08 the sketch engine. Information Technology, 105, 116.
- Lewandowska-Tomaszczyk, B., Bańko, M., Górski, R. L., Pęzik, P., & Przepiórkowski, A. (2012). Narodowy Korpus Języka Polskiego. Wydawnictwo Naukowe PWN.
- Maziarz, M., Piasecki, M., Rudnicka, E., & Szpakowicz, S. (2014). Plwordnet as the cornerstone of a toolkit of lexico-semantic resources. In Proceedings of the Seventh Global Wordnet Conference (pp. 304-312).
- https://www.sketchengine.co.uk/user-guide/user-manual/word-sketch/
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: