O stylu ilościowo, czyli teksty literackie i stylometria komputerowa 3003-C4TN-JK1
Kurs obejmuje następujące tematy:
1. Podstawowe pojęcia statystyki językoznawczej.
Studenci poznają pojęcia metod ilościowych językoznawstwa.
2. Budowanie korpusu.
Praca z serwisem korpusomat.eu. Przygotowanie i czyszczenie korpusu, import, przetwarzanie, pobranie korpusu. Format danych wyjściowych. Kwerendy korpusowe.
3. Analiza danych korpusowych.
Praca z korpusami i bardziej zaawansowane kwerendy (KWJP i korpusami stworzonymi przez uczestników).
4. Wprowadzenie do programu RStudio i języka R.
5. Co to jest stylometria i jakie są jej metody.
Krótki przegląd zagadnień, problemów i zastosowań stylometrii.
6. Dyskryminatory stylometryczne.
Co to są dyskryminatory stylometryczne? Przegląd dyskryminatorów i informacji, które niosą.
7. Stylometria wielkoskalowa.
Distant reading, stylometria wielkoskalowa i jej metody. Praca z pakietem stylo. Interpretacja wyników.
8. Przygotowanie i analiza korpusu tematycznego/gatunkowego/autorskiego.
Studenci w grupach przygotowują korpus, a następnie analizują jego wyniki wg wybranych wskaźników oraz prezentują przyjęte zasady analizy.
9. Prezentacja wyników.
Uczestnicy zajęć wykonują zadania na platformie Kampus, czynnie uczestniczą w przygotowaniu korpusu tematycznego/gatunkowego/autorskiego, jego analizie stylometrycznej i przestawieniu wyników. W trakcie semestru uczestnicy wykonują (nie więcej niż 2) zadania grupowe.
Rodzaj przedmiotu
Tryb prowadzenia
Założenia (opisowo)
Koordynatorzy przedmiotu
Efekty kształcenia
Po zakończeniu zajęć student:
— wie, czym jest korpus językowy, w szczególności korpus do badań stylistycznych.
– wie, czym korpus do badań stylistycznych różni się od korpusów do innych badań.
— umie stworzyć odpowiedni korpus za pomocą dostępnych narzędzi.
— rozumie i umie zinterpretować wyniki obliczeń dokonywanych za pomocą dostępnych narzędzi.
— odróżnia podstawowe typy danych i umie dobrać odpowiednie testy do ich wykorzystania.
— zna i rozumie podstawowe testy stylometryczne oraz umie je przeprowadzić.
— umie korzystać z dokumentacji niezbędnych programów.
— zna podstawy języka R potrzebne do analizy stylometrycznej.
— zna i rozumie ograniczenia stosowanych metod i wykorzystywanych typów danych.
— umie zaprojektować i przeprowadzić badanie stylometryczne oraz sprawozdać jego wyniki.
— ma podstawową wiedzę o wizualizacji danych różnych typów.
Kryteria oceniania
1. wykonywanie zadań i testów bieżących w sali i na platformie — 20%.
2. projekty grupowe w trakcie zajęć (nie więcej niż 2) – 30%.
3. projekt grupowy końcowy – 50%.
Nieobecności
1. Student ma prawo do dwóch nieusprawiedliwionych nieobecności w semestrze.
2. Jeśli student ma więcej nieusprawiedliwionych nieobecności, nie zalicza zajęć.
3. Jeśli student chce usprawiedliwić nieobecności, musi w ciągu tygodnia udokumentować ich obiektywne przyczyny (np. zwolnieniem lekarskim).
4. Student ma obowiązek odrobić nadprogramowe usprawiedliwione nieobecności w sposób wskazany przez osobę prowadzącą zajęcia. 1.
Posługiwanie się narzędziami AI:
1. Jeśli student chce na potrzeby pracy zaliczeniowej lub prac cząstkowych skorzystać z narzędzi sztucznej inteligencji, zobowiązany jest:
a. uzyskać na to zgodę osoby prowadzącej zajęcia,
b. uzgodnić z osobą prowadzącą zajęcia cele i zakres wykorzystania narzędzi sztucznej inteligencji.
2. Student nie może korzystać z narzędzi sztucznej inteligencji, aby redagować prace w języku polskim, chyba że osoba prowadząca zajęcia się na to zgodzi.
3. Jeśli student wykorzysta narzędzia sztucznej inteligencji:
a. bez zgody osoby prowadzącej zajęcia lub
b. w sposób z nią nieuzgodniony,
osoba prowadząca zajęcia stosuje procedury analogiczne do procedur stosowanych w procedurze antyplagiatowej (por. uchwała nr 14 Uniwersyteckiej Rady ds. Kształcenia).
Praktyki zawodowe
Nie ma.
Literatura
Wybór z:
Harald R. Baayen (2014), Analyzing linguistic data. A practical guide to statistics using R, Cambridge University Press.
David M. Blei (2012), Probabilistic topic models, Communications of the ACM, Vol. 55, No. 4,Association for Computing Machinery (ACM)
p. 77-84. http://www.cs.columbia.edu/~blei/papers/Blei2012.pdf
Maciej Eder (2014), Metody ścisłe w literaturoznawstwie i pułapki pozornego obiektywizmu – przykład stylometrii, Teksty Drugie, nr 2.
Maciej Eder, Mike Kestemont, Jan Rybicki (2013), Stylometry with R: a suite of tools, Digital Humanities 2013: Conference Abstracts, Lincoln: University of Nebraska-Lincoln, s. 487-489.
Rafał L. Górski, Magdalena Król, Maciej Eder (2019), Zmiana w języku.
Studia kwantytatywno-korpusowe, Kraków: IJP PAN.
Magdalena Kądzioła (2019). Czynniki różnicujące wypowiedzi informatorów — analiza stylometryczna wywiadów biograficznych, Wrocławski Rocznik Historii Mówionej, t. 8, Ośrodek Pamięć i Przyszłość
s. 63-80.
Witold Kieraś, Łukasz Kobyliński, Maciej Ogrodniczuk (2018)
Korpusomat — a Tool for Creating Searchable Morphosyntactically Tagged Corpora Computational Methods in Science and Technology, 24/1, s. 21-27. https://korpusomat.eu/
Władysław Kuraszkiewicz i Józef Łukaszewicz (1951), Ilość różnych wyrazów w zależności od długości tekstu, Pamiętnik Literacki: czasopismo kwartalne poświęcone historii i krytyce literatury polskiej, Vol. 42, No. 1, s. 168-182.
Natalia Levchina (2015), How to do linguistics with R, John Benjamins.
Małgorzata Marciniak, Witold Kieraś, Krystyna Bojałkowska, Piotr Borkowski, Monika Borys, Wiktor Eźlakowski, Wojciech Guz, Łukasz Kobyliński, Dorota Komosińska, Katarzyna Krasnowska-Kieraś, Marek Łaziński, Martyna Miernecka, Bartłomiej Nitoń, Maciej Ogrodniczuk, Michał Rudolf, Aleksandra Tomaszewska, Marcin Woliński, Joanna Wołoszyn, Beata Wójtowicz, Alina Wróblewska, Natalia Zawadzka-Paluektau (2023). Korpus Współczesnego Języka Polskiego. https://kwjp.pl/
Franco Moretti (2013), Distant Reading, Verso.
Adam Pawłowski, red. (2023), Od Gutenberga do Zuckerberga.
Jan Rybicki (2013), Stylometryczna niewidzialność tłumacza, Przekładaniec 27, s. 61-87.
Jadwiga Sambor (1977), Słowa i liczby, Wrocław-Warszawa-Kraków-Gdańsk.
Jadwiga Sambor i Rolf Hammerl (1990), Statystyka dla językoznawców, Warszawa: WUW.
StatSoft (2006). Elektroniczny Podręcznik Statystyki PL., Kraków, WEB: http://www.statsoft.pl/textbook/stathome.html.
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: