Seminarium licencjackie : Wstęp do językoznawstwa komputerowego 3304-1DZ3O-SL-015
Seminarium jest pomyślane jako kurs wprowadzający w wybrane zagadnienia językoznawstwa komputerowego. Prezentowane są wybrane przykłady dotyczące automatycznego przetwarzania języka oraz uczenia maszynowego oraz zagadnienia związane z platformą do automatycznego regułowego przetwarzania języka NooJ.
1. Panorama tematów NLP i badań korpusowych. - Wprowadzenie pojęcia korpusu. - Typy korpusów i sposoby ich przeszukiwania. - Badania korpusowe. - Tłumaczenie automatyczne: krótka historia, wyzwania. Programy tłumaczące on-line. - Automatyczna ekstrakcja informacji z tekstu. - Automatyczne streszczanie tekstu. - Automatyczne rozpoznawanie języka. - Automatyczne rozpoznawanie tekstu pisanego ręcznie. Automatyczne rozpoznawanie mowy. Analiza sentymentu.
2. Platforma NooJ
- Przeznaczenie i zastosowanie pakietu. NooJ.
- Architektura systemu.
- Słowniki elektroniczne i ich typy: przykłady francuskie, polskie.
- Kategorie gramatyczne uwzględniane w konstruowanych słownikach.
- Anotacja tekstu za pomocą wykonanych i istniejących słowników.
- Priorytety w analizie lingwistycznej tekstów.
- Konkordancja, kolokacja, okurencja, miary ekstrakcji kolokacji .
- Analiza korpusowa w oparciu o funkcje w NooJ.
Założenia (opisowo)
Efekty kształcenia
Student posiada specyficzną wiedzę z zakresu językoznawstwa komputerowego, w szczególności - ma podstawową wiedze o specyfice językoznawstwa komputerowego i jego metodologii, - zna podstawowe pojęcia i terminologię używaną w językoznawstwie komputerowym - potrafi posługiwać się podstawowymi ujęciami teoretycznymi, paradygmatami badawczymi i pojęciami właściwymi dla językoznawstwa komputerowego, potrafi prezentować rezultaty badań z tego zakresu, przygotować raport na temat z obszaru językoznawstwa komputerowego, brać udział w dyskusji używając argumentów i pomysłów innych autorów i formułować wnioski. umie napisać krótki tekst streszczający pracę licencjacką w języku angielskim z wykorzystaniem stylu akademickiego i specjalistycznej terminologii.
W formie bardziej sformalizowanej, osiągane są następujące efekty kształcenia:
Wiedza
K_W04 ma usystematyzowaną wiedzę o podstawowych procesach zachodzących w obszarze języka H1A_W04
K_W05 ma elementarną wiedzę o metodologii badań nad językiem H1A_W03
K_W06 ma elementarną wiedzę o kierunkach badań w językoznawstwie i o najnowszych osiągnięciach w tej dziedzinie H1A_W06
K_W07 ma podstawową wiedzę o miejscu romanistyki w systemie nauk humanistycznych oraz o jej przedmiotowych i metodologicznych powiązaniach z innymi dyscyplinami naukowymi H1A_W05
K_W08 ma podstawową wiedzę z zakresu językoznawstwa ogólnego i romańskiego H1A_W03
K_W09 ma świadomość złożonej natury języka oraz historycznej zmienności jego znaczeń H1A_W09
Umiejętności społeczne
K_U01 potrafi korzystać z różnych źródeł i sposobów, w tym nowoczesnych technologii informacyjnych, aby wyszukiwać, analizować, oceniać, selekcjonować i użytkować informację niezbędną do udziału w zajęciach. Posługuje się podstawowymi źródłami leksykograficznymi i gramatycznymi H1A_U01
K_U02 posiada podstawowe umiejętności badawcze, obejmujące formułowanie i analizę problemów badawczych, dobór metod i narzędzi badawczych, opracowanie i prezentację wyników w zakresie niezbędnym do udziału w dyskusji na zajęciach i przygotowania własnych prac z zakresu romanistyki H1A_U02
K_U03 umie samodzielnie zdobywać wiedzę i rozwijać umiejętności badawcze, kierując się wskazówkami opiekuna naukowego H1A_U03
K_U06 posiada umiejętność merytorycznego argumentowania z wykorzystaniem poglądów innych autorów oraz formułowania wniosków H1A_U06
K_U07 potrafi porozumiewać się z wykorzystaniem różnych kanałów i technik komunikacyjnych ze specjalistami z zakresu romanistyki w języku polskim i francuskim H1A_U07
K_U08 umie zaprojektować pracę pisemną, w języku francuskim i polskim, przedstawiającą zagadnienia szczegółowe, z wykorzystaniem różnych źródeł i podstawowych ujęć teoretycznych H1A_U08
K_U09 posiada umiejętność przygotowania wystąpień ustnych w języku francuskim i polskim, przedstawiających zagadnienia szczegółowe, z wykorzystaniem różnych źródeł i podstawowych ujęć teoretycznych H1A_U10
K_U10 posiada kompetencję językową czynną i bierną w zakresie języka francuskiego na poziomie C1 ESOKJ w mowie i w piśmie. Potrafi zrozumieć dłuższą wypowiedź pisemną i ustną oraz konstruować różne rodzaje tekstu zgodnie z regułami komunikacji językowej, w tym podstawowe wypowiedzi typu akademickiego – referat, streszczenie, krótki esej. H1A_U10
KOMPETENCJE SPOŁECZNE
K_K01 rozumie potrzebę ciągłego dokształcania się zawodowego i rozwoju osobistego, ocenia własne kompetencje w różnych dziedzinach i doskonali umiejętności H1A_K01
K_K02 umie współpracować w grupie, rozwiązywać problemy w dyskusji i inicjować stosowne do sytuacji rozwiązania H1A_K02
K_K03 potrafi dokonać wzajemnej ewaluacji z poszanowaniem godności i uczuć członków grupy H1A_K02
H1A_K03
K_K05 potrafi odpowiednio określić priorytety służące realizacji określonego przez siebie i innych zadania H1A_K02
K_K06 prawidłowo identyfikuje problemy i podejmuje decyzje związane z wykonaniem zawodu H1A_K03
Kryteria oceniania
Podstawą zaliczenia jest:
obecność i aktywny udział w zajęciach,
praca własna studenta polegająca na lekturze i analizie przesyłanych tekstów z zakresu automatycznego przetwarzania języka w celu zabrania głosu na zajęciach;
krótka prezentacja na ustalony temat z zakresu językoznawstwa ogólnego;
wykonanie pracy licencjackiej i skorygowanie według wskazań promotora.
Literatura
Derwojedowa, M., Rudolf, M., Świdziński, M.: "Dehomonimizacja i desynkretyzacja w procesie automatycznego przetwarzania wielkich korpusów tekstów polskich". [W:] Biuletyn Polskiego Towarzystwa Językoznawczego LVIII, Warszawa 2002. 187-199.
Eshkol-Taravella, I.(2015) La définition des annotations linguistiques selon les corpus : de l’écrit journalistique à l’oral. Linguistique. Université d’Orléans. fftel-01250650f https://hal.archives-ouvertes.fr/tel-01250650/document
Giuliani, D., Hannachi R. (2010) Linguistique de corpus et didactique du F.L.E. Une exploitation du corpus IntUne. Corpus Linguistics and French as a Foreign Language : Using the IntUne Corpus. p. 145-160. https://doi.org/10.4000/praxematique.1136
Gładysz, A. (2014)Problemy i wyzwania automatycznego przetwarzania informacji zapisanej w języku naturalnym. Logistyka, nr 3.
Grzegorczykowa, R. (1979) Zarys słowotwórstwa polskiego. PWN. Warszaw
Jurafsky, D., Martin J. (2000). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Upper Saddle River: Prentice Hall.
Kennedy, G. (1998). An Introduction to Corpus Linguistics. London: Addison Wesley Longman.
Kilgarriff, A. (2003) Introduction to the special issue on the web as corpus. /c/1997c/tops/dvips (aclweb.org)
Laver, J. Dry, H. (1998). Using Computers in Linguistics. London: Routlege.
Manning, Ch., Schütze, H. (1999. Foundations of statistical natural language processing. Cambridge, Massachusetts, London: The MIT Press. Accessible https://www.cs.vassar.edu/~cs366/docs/Manning_Schuetze_StatisticalNLP.pdf
Mitkov, R. (2003). The Oxford Handbook of Computational Linguistics. Oxford: OUP. Sinclair, J. (1991). Corpus, Concordance, Collocation. Oxford: OUP.
Saloni, Z., Świdziński M.(2012) Składnia współczesnego języka polskiego. PWN. Warszawa.
Silberztein, M. (2003) NooJ Manual.
Silberztein, M. (2015) La formalisation des langues. Approche de NooJ. ISTE Éditions.
Teubert, W. (2009) La linguistique de corpus : une alternative. SEMEN. https://journals.openedition.org/semen/8923#tocto1n1
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: