Big Data Analytics 2400-DS2BDA
1. Wprowadzenie do środowiska Linux
2. Wprowadzenie do Big Data
• Środowisko Hadoop
• Paradygmat MapReduce
3. Przetwarzanie i eksploracja danych z użyciem Apache Hive i Apache Spark
• Różnice vs. RDBMs
• Optymalizacja
• Pułapki
4. Wprowadzenie do uczenia maszynowego z użyciem Apache Spark
• Przeniesienie modelu zbudowanego w R lub Python na wcześniejszych etapach kształcenia do świata dużych danych (możliwości i ograniczenia)
5. Analiza interaktywna
6. Wizualizacje w Big Data
7. Automatyzacja przetwarzania danych z użyciem Apache Ariflow
Rodzaj przedmiotu
Koordynatorzy przedmiotu
W cyklu 2024Z: | W cyklu 2023Z: |
Efekty kształcenia
Studenci nauczą się w jaki sposób wykorzystywać ekosystem Hadoop do przygotowania i analizy dużych zbiorów danych oraz zastosowania podstawowych metod uczenia maszynowego.
K_U02, K_U05
Kryteria oceniania
Warunkiem zaliczenia przedmiotu jest:
• Obecność na zajęciach
• Prezentacja, w której przedstawione zostaną wybrane zastosowania omówionych w trakcie zajęć metod
• projekt z użyciem dużego zbioru danych
Literatura
Literatura oraz publikacje dostępne on-line będą udostęniane w trakcie laboratorium
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: