Uczenie maszynowe w dużej skali 1000-319bBML
-Rozpraszanie obliczeń na klastrach oraz rozproszone systemy plików.
-Model Map-reduce i podstawowe techniki algorytmiczne dla tego modelu, metody analizy algorytmów na przykładzie typowych problemów (mnożenie macierzy, wielozłączenia, algorytmy minimalne, zliczanie trójkątów w dużych grafach).
-Całkowity vs mijający koszt komunikacji (ang. total vs elapsed communication cost) oraz metody radzenia sobie ze skew.
-Spark i model Resilient Distributed Dataset.
-Spark SQL i jego optymalizacje.
-Metody serializacji dużych danych i formaty kolumnowe.
-Architektury rozwiązań managed cloud data warehouse.
-Algorytmy strumieniowe.
-Rozpraszanie typowych algorytmów uczenia maszynowego, np. regresja liniowa - wariant strumieniowy, optymalizacje stosowane w metodach opartych o drzewa decyzyjne oraz przy rozpraszaniu klastrowania.
-Sieci neuronowe w dużej skali (data parallelism, model parallelism).
-Indeksowanie z wykorzystaniem uczenia maszynowego (learned index structores).
Rodzaj przedmiotu
Wymagania (lista przedmiotów)
Założenia (opisowo)
Koordynatorzy przedmiotu
W cyklu 2024Z: | W cyklu 2023Z: |
Efekty kształcenia
Wiedza: student zna i rozumie
techniki wielkoskalowego przetwarzania danych używane w kontekście uczenia maszynowego [K_W04]
metody rozpraszania i zrównoleglania obliczeń [K_W06]
Umiejętności: student potrafi
stosować współczesne systemy rozpraszania i zrównoleglania obliczeń [K_U20]
przetwarzać duże zbiory danych [K_U21]
Kompetencje społeczne: student jest gotów do
krytycznej oceny posiadanej wiedzy i odbieranych treści [K_K01]
uznawania znaczenia wiedzy w rozwiązywaniu problemów poznawczych i praktycznych oraz zasięgania opinii ekspertów w przypadku trudności z samodzielnym rozwiązaniem problemu [K_K02]
Kryteria oceniania
Ocena końcowa na podstawie punktów z programów zaliczeniowych, zadań domowych (w formie programów komputerowych) oraz egzaminu.
Literatura
-Jure Leskovec, Anand Rajaraman, and Jeffrey David Ullman. Mining of Massive Datasets. Cambridge University Press
-Guglielmo Iozzia, Hands-On Deep Learning with Apache Spark, Packt Publishing
-Butch Quinto, Next-Generation Machine Learning with Spark: Covers XGBoost, -LightGBM, Spark NLP, Distributed Deep Learning with Keras, and More, Apress
Więcej informacji
Więcej informacji o poziomie przedmiotu, roku studiów (i/lub semestrze) w którym się odbywa, o rodzaju i liczbie godzin zajęć - szukaj w planach studiów odpowiednich programów. Ten przedmiot jest związany z programami:
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: