Humanistyka cyfrowa: Język i liczby, czyli stylometria komputerowa 1500-SDN-HCJILCSK
Na zajęciach zostaną omówione następujące zagadnienia:
1. Stylometria jako dziedzina językoznawstwa kwantytatywnego.
2. Krótka historia filologicznych metod ilościowych.
3. Distant reading w praktyce: czego możemy się dowiedzieć z ilościowych cech tytułów?
4. Wprowadzenie do statystyki tekstu: segmentacja tekstu (słowa, formy, leksemy); znakowanie i ujednoznacznianie; n-gramy; frekwencja, ranga i ich wzajemna zależność; słowa najczęstsze (MFW: most frequent words), jak można je przedstawić i czego można się z nich dowiedzieć.
5. Przygotowanie danych, typy danych i ich wizualizacja.
6. Metryki formalne: długość słów i zdań.
7. Metryki leksykalne: MFW, słowa kluczowe (key-words), kolokacje, kookurencje i różne metody ich wykrywania; rozkład słów kluczowych i najczęstszych w tekście. Stoplisty.
8. Nazwy własne w tekście. Wykorzystanie statystyk nazw własnych.
9. Statystyki części mowy. Wyrazy obce i nierozpoznane. Zmiany ortograficzne a segmentacja i statystyka tekstu.
10. Bogactwo słownictwa i jego miary (TTR, logarytmiczna TTR, Z Zipfa, K Yule’a, miary R Guirauda, C Herdana, miara Sichela, oryginalność słownictwa wg Sambor, funkcja przyrostu Baayena).
11. Metryki składniowe: głębokość (złożoność syntaktyczna), nominalność, linearyzacja, typy struktur składniowych.
12. Analiza wydźwięku i emocji (sentiment/affective words analysis): polaryzacja, metody słownikowe.
13. Analiza tematyczna (topic analysis): nienadzorowana, półnadzorowana (słownikowa).
Na zajęciach przewiduję krótkie aktywności w grupach, oraz zadania dla słuchaczy. Integralną częścią zajęć są testy i materiały na platformie Kampus.
Rodzaj przedmiotu
Koordynatorzy przedmiotu
Efekty kształcenia
Wiedza (zna i rozumie): słuchacz i słuchaczka:
zna podstawowe pojęcia językoznawstwa kwantytatywnego i ich zastosowanie w badaniach stylu;
rozumie pojęcie stylu i umie je odnieść do autora, gatunku lub funkcji;
wie, czym jest stylometria, zna obszary jej zastosowania;
zna i rozumie metody wykorzystywane w badaniach oraz ich ograniczenia;
umie zinterpretować dane ilościowe uzyskane w wyniku analizy stylometrycznej i zastosować je do weryfikacji hipotez badawczych;
identyfikuje typy danych i odpowiednich dla nich wizualizacji.
WG_01 w stopniu umożliwiającym rewizję istniejących paradygmatów – światowy dorobek, obejmujący podstawy teoretyczne oraz zagadnienia ogólne i wybrane zagadnienia szczegółowe – właściwe dla dyscyplin humanistycznych
WG_03 metodologię badań naukowych w obrębie nauk humanistycznych
Kompetencje społeczne (jest gotów do)
KK_03 uznania priorytetu wiedzy w rozwiązaniu problemów badawczych, poznawczych i praktycznych, w obrębie dyscyplin humanistycznych, z zachowaniem szacunku dla standardów pracy i debaty naukowej
KO_01 wypełniania zobowiązań społecznych i podejmowania działań na rzecz interesu publicznego, zwłaszcza w zakresie upowszechniania wyników badań nauk humanistycznych z zastosowaniem nowoczesnych narzędzi komunikacyjno-technologicznych
Kryteria oceniania
dopuszczalne 2 nieobecności nieusprawiedliwione. Do zaliczenia w terminie poprawkowym mogą przystąpić osoby, które mają nie więcej niż 4 nieusprawiedliwione nieobecności i przystąpiły do co najmniej połowy testów bieżących;
ocena końcowa:
■ 50% — regularne wykonywanie testów bieżących on-line do poszczególnych tematów na platformie Kampus. Testy są dostępne od dnia zajęć do dnia następnych zajęć, ograniczone czasowo, uczestnicy mają 2 próby, z których liczy się lepsza;
■ 50% zaliczenie testu końcowego on-line na platformie Kampus. Test jest ograniczony czasowo, uczestnicy mają 1 próbę. (50% ogólnej liczby punktów);
■ aby zaliczyć, należy uzyskać co najmniej 60% ogólnej liczby punktów.
Literatura
Rozdziały, artykuły lub części artykułów:
Biber, D. i Conrad, S. (2019), „Register, genre and style”, Cambridge University Press, 2nd ed.
Blei, D. M. (2012), „Probabilistic topic models”, Communications of the ACM, Vol. 55, No. 4,Association for Computing Machinery (ACM).
Eder, M. (2014), „Metody ścisłe w literaturoznawstwie i pułapki pozornego obiektywizmu – przykład stylometrii”, Teksty Drugie, nr 2.
Górski, R. L., Król, M., Eder, M. (2019), Zmiana w języku. Studia kwantytatywno-korpusowe, Kraków: IJP PAN.
Grzybek, P. (2014) „The Emergence of Stylometry: Prolegomena to the History of Term and Concept” [w:] Kroó K. i Torop, P. (red.)Text within Text - Culture within Culture, s. 58-75, http://www.peter-grzybek.eu/science/publications/2014/grzybek_2014_stylometry.pdf.
Guiraud, P. (1966), „Zagadnienia i metody statystyki językoznawczej”, tłum. M. Kniagininowa,Warszawa.
Jockers, M. (2013) „Macroanalysis: Digital Methods and Literary History”, University of Illinois Press.
Kuraszkiewicz, W. i Łukaszewicz, J. (1951), „Ilość różnych wyrazów w zależności od długości tekstu”, Pamiętnik Literacki: czasopismo kwartalne poświęcone historii i krytyce literatury polskiej, Vol. 42, No. 1, s. 168-182.
Moretti, F. (2013) „Distant reading”, London: Verso.
Pawłowski, A. (red.) (2023) „Od Gutenberga do Zuckerberga“, Kraków: Universitas, https://www.bibliotekacyfrowa.pl/dlibra/publication/edition/146230.
Ruszkowski M., (2004), „Wskaźnik nominalności jako element stylistycznej charakterystyki tekstu”, „Stylistyka” 13, s. 341–348.
Rybicki, J., Heydel, M. (2013) „The Stylistics and Stylometry of Collaborative Translation: Woolf's 'Night and Day' in Polish,” Literary and Linguistic Computing Univer28 (4), 708-717.
Rybicki, J. (2014). „Stylometryczna niewidzialność tłumacza”. Przekładaniec, 2014, 61-87. doi: https://doi.org/10.4467/16891864PC.13.004.1286.
Rybicki, J. (2014) „Pierwszy rzut oka na stylometryzczną mapę literatury polskiej”, Teksty Drugie 2/2014, s. 106-128.
Rybicki, J. (2017) „Drugi rzut oka na stylometryzczną mapę literatury polskiej”, Forum Poetyki 10(2017:jesień), s. 6-20.
Sambor, J. (1977), „Słowa i liczby. Zagadnienia językoznawstwa statystycznego”, Wrocław-Warszawa-Kraków-Gańsk.
Sambor, J. i Hammerl, R. (1990), „Statystyka dla językoznawców”, Warszawa: WUW.
Wierzba, M, Riegel, M, Wypych, M, Jednoróg, K, Turnau, P, et al. (2015) Basic Emotions in the Nencki Affective Word List (NAWL BE): New Method of Classifying Emotional Stimuli. PLOS ONE 10(7): e0132305. https://doi.org/10.1371/journal.pone.0132305.
Uwagi
W cyklu 2025Z:
wykład, online przez Gmeet. |
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: