- Bioinformatyka i biologia systemów, stacjonarne, pierwszego stopnia
- Informatyka, stacjonarne, pierwszego stopnia
- Matematyka, stacjonarne, pierwszego stopnia
- Bioinformatyka i biologia systemów, stacjonarne drugiego stopnia
- Informatyka, stacjonarne, drugiego stopnia
- Matematyka, stacjonarne, drugiego stopnia
Stylometria czyli z zastosowanie narzędzi cyfrowych do badań gatunków tekstów (od kryminałów po druki urzędowe) 3003-ST(KC)-OG
Zajęcia poświęcone są wykorzystaniu metod statystycznych do badania cech charakterystycznych tekstów, czyli stylometrii. Mają formę wykładu.
W części wstępnej zostaną przedstawione zagadnienia ogólne: krótka historia metod ilościowych w badaniach językoznawczych, podstawowe pojęcia językoznawczej analizy tekstu, pojęcie stylu i zróżnicowania stylistycznego. W zasadniczej części zostaną przedstawione typowe metryki stylistyczne — leksykalne i formalne, a także ich zastosowania (np. autorstwo, podobieństwo, chronologizacja, charakterystyka autorska i gatunkowa). Prezentowane zagadnienia będą ilustrowane analizami tekstów różnych typów, od powieści milicyjnej, przez przemówienia polityków, po teksty urzędowe.
Zakres tematów:
1. Metody statystyczne w językoznawstwie.
2. Tekst, jego segmentacja i interpretacja.
3. Co to jest styl i co charakteryzuje?
3. Wyrazy najczęstsze i co z nich wynika.
4. Wyrazy kluczowe i co z nich wynika.
5. Ile różnych wyrazów jest w tekście?
6. Połączenia i sąsiedztwo wyrazów: kookurencje, kolokacje, jednostki nazewnicze.
7. Formalne cechy stylu.
8. Zastosowania.
Rodzaj przedmiotu
Tryb prowadzenia
Założenia (opisowo)
Koordynatorzy przedmiotu
Efekty kształcenia
Po ukończeniu przedmiotu student:
– wie, na czym polega statystyczne badanie tekstu, zna jego zastosowania;
– zna założenia badań stylometrycznych;
– rozumie metryki stylometryczne tekstu i wie, jakie jest ich zastosowanie;
– umie wskazać zastosowania analiz ilościowych tekstów w badaniach pozajęzykowych;
– zna ograniczenia stylometrii i jej poszczególnych metod.
Kryteria oceniania
testy bieżące 50%
test końcowy 50%
dopuszczalne dwie nieobecności nieusprawiedliwione
Praktyki zawodowe
nie ma
Literatura
Lista zawiera również pozycje wnikające głębiej w techniczne (statystyczne) aspekty prezentowanej metody, są to pozycje dla zainteresowanych i zostaną każdorazowo oznaczone.
1. David M. Blei (2012), „Probabilistic topic models”, Communications of the ACM, Vol. 55, No. 4,Association for Computing Machinery (ACM).
2.John F. Burrows (2002). “Delta”: A Measure of Stylistic Difference and a Guide to Likely Authorship,
„Literary and Linguistic Computing”, nr 17(2002), s. 267–287.
3. Alvar Ellegård (1960). Estimating Vocabulary Size. WORD. 16:2, s. 219-244,
DOI: 10.1080/00437956.1960.11659728.
4. Grzybek, P. (2014) „The Emergence of Stylometry: Prolegomena to the History of Term and Concept” [w:] Kroó K. i Torop, P. (red.)Text within Text - Culture within Culture, s. 58-75, http://www.peter-grzybek.eu/science/publications/2014/grzybek_2014_stylometry.pdf.
5. Pierre Guiraud (1966), „Zagadnienia i metody statystyki językoznawczej”, tłum. M. Kniagininowa,Warszawa.
6. Gustav Herdan (1966). The advanced theory of Language as Choice nad Chance. Springer Verlag — wybrane fragmenty.
8. Keith Johnson (2008). Quantitative Methods in Linguistics. Blackwell Publishing.
8. Magdalena Kądzioła (2018). Czynniki różnicujące wypowiedzi informatorów — analiza stylometryczna wywiadów biograficznych. Wrocławski Rocznik Historii Mówionej VIII(2018), s. 63-80. DOI : 10.26774/wrhm.206.
9. Kuraszkiewicz, W. i Łukaszewicz, J. (1951), „Ilość różnych wyrazów w zależności od długości tekstu”, Pamiętnik Literacki: czasopismo kwartalne poświęcone historii i krytyce literatury polskiej, Vol. 42, No. 1, s. 168-182.
10. Franco Moretti (2013). „Distant reading”, London: Verso.
11. Adam Pawłowski (2024). Od Gutenberga do Zuckerberga. Wstęp do Humanistyki cyfrowej (s. 408). Towarzystwo Autorów i Wydawców Prac Naukowych Universitas. https://www.universitas.com.pl/produkt/4292/Od-Gutenberga-do-Zukerberga-Wstep-do-Humanistyki-cyfrowej.
12. Przegląd Humanistyczny 2016(3) – wybrane artykuły.
13. Stuart Rose, D. Engel, Dave, N. Cramer i W.Cowley (2010). Automatic Keyword Extraction from Individual Documents. Text Mining: Applications and Theory 3, s. 1-20 DOI: 10.1002/9780470689646.ch1.
14. Jan Rybicki i M. Heydel (2013) „The Stylistics and Stylometry of Collaborative Translation: Woolf's 'Night and Day' in Polish,” Literary and Linguistic Computing Univer28 (4), 708-717.
15. Jan Rybicki J. Vive la différence: Tracing the (Authorial) Gender Signal by Multivariate Analysis of Word Frequencies, „Digital Scholarship in the Humanities”, nr 31 (4) (2016), s. 746–761.
16. Rybicki J., Vive la différence: Tracing the (Authorial) Gender Signal by Multivariate Analysis of
Word Frequencies, „Digital Scholarship in the Humanities”, nr 31 (4) (2016), s. 746–761.
17. Sambor, J. (1977), „Słowa i liczby. Zagadnienia językoznawstwa statystycznego”, Wrocław-Warszawa-Kraków-Gdańsk.
18. Fiona Tweedie i R.H. Baayen (1998). How Variable May a Constant be? Measures of Lexical Richness in Perspective. Computers and the Humanities 32, s. 323-352.
Więcej informacji
Więcej informacji o poziomie przedmiotu, roku studiów (i/lub semestrze) w którym się odbywa, o rodzaju i liczbie godzin zajęć - szukaj w planach studiów odpowiednich programów. Ten przedmiot jest związany z programami:
- Bioinformatyka i biologia systemów, stacjonarne, pierwszego stopnia
- Informatyka, stacjonarne, pierwszego stopnia
- Matematyka, stacjonarne, pierwszego stopnia
- Bioinformatyka i biologia systemów, stacjonarne drugiego stopnia
- Informatyka, stacjonarne, drugiego stopnia
- Matematyka, stacjonarne, drugiego stopnia
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: