Topic modeling 2400-SP-DS-TOP
Kurs ma na celu zapoznanie słuchaczy z zestawem algorytmów uczenia maszynowego przeznaczonych do automatycznego grupowania tekstów ze względu na występujące w nich motywy tematyczne. Takie działanie pozwala na wydajną eksplorację dużej ilości dokumentów, a w konsekwencji skuteczne zrozumienie ich treści bez konieczności zapoznawania się z nimi przez człowieka. Tym samym modelowanie tematów pozwala m.in. na identyfikację treści do siebie podobnych, odfiltrowywanie treści nieinformatywnych, identyfikację trendów tematycznych w tekstach. W trakcie kursu omówione zostaną algorytmy semantyczne, tzn. bazujące wyłącznie na algebrze liniowej, oraz probabilistyczne, czyli pozwalające na estymację prawdopodobieństw przynależności dokumentów do poszczególnych motywów tematycznych. Wśród tych drugich przedstawione zostaną w szczególności: najpopularniejszy obecnie algorytm tj. Latent Dirichlet Allocation, oraz najnowocześniejszy, bazujący na implementacji dużych modeli językowych, BERTopic. Zaprezentowane zostanie również możliwe wykorzystanie modelowania tematycznego do przewidywania charakterystyk przypisanych poszczególnym tekstom. Przedstawione zostaną ponadto techniczne możliwości analizowania relacji i podobieństwa między identyfikowanymi motywami tematycznymi oraz zmienności ich i ich częstości występowania w czasie.
Rodzaj przedmiotu
Koordynatorzy przedmiotu
Kryteria oceniania
Test zaliczeniowy - do zaliczenia wymagana jest 50% poprawnych odpowiedzi na 10 pytań.
Literatura
Materiały przygotowywane przez wykładowcę i udostępniane uczestnikowi na platformie Google Drive.
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: