Wstęp do Data Engineeringu w GCP – część I 2400-ZEWW999
Spis treści – część pierwsza
1. Wstęp
1.1 Do kogo skierowany jest niniejszy kurs – wymagania wstępne
1.2 O kursie
1.3 Czym właściwie jest Data Engineering
2. Google Cloud Platform – informacje ogólne
2.1 Czym jest Google Cloud Platform
2.2 Konfiguracja projektu w GCP
2.3 Zarządzanie kosztami – billing
2.4 Zarządzanie dostępem (IAM)
2.5 Monitoring i logowanie
3. Google BigQuery
3.1 Czym jest Google BigQuery
3.2 Datasety w BigQuery
3.3 Pisanie zapytań
3.4 Tworzenie tabel w BigQuery
3.4.1 Tworzenie tabel będących wynikiem zapytania
3.4.2 Tworzenie tabel z Google Sheet’a
3.4.3 Tworzenie tabel z plików csv/parquet/avro w Google Cloud Storage
3.5 Schedulowanie zapytań
3.6 Data Transfer
4. SQL
4.1 Struktura zapytania
4.2 Funkcje skalarne w Standard SQL
4.3 Instrukcje warunkowe
4.4 Podzapytania i CTE
4.5 Złączenia tabel
4.6 Funkcje okienkowe
4.7 Funkcja Pivot
4.8 Praca z obiektami ARRAY
4.9 Praca z obiektami STRUCT
4.10 Praca z obiektami JSON
4.11 Optymalizacja zapytań w BigQuery
Podczas kursu będziemy korzystać z chmury google’a – Google Cloud Platform (GCP) oraz z Pythona w wersji 3.11. Sugerowane IDE do części związanej z Pythonem to Pycharm Enterprise (wszystko w wersjach darmowych)
Procentowo zagadnienia na kursie przedstawiają się mniej więcej następująco:
• SQL – powtórzenie – 15%
• BigQuery i zaawansowany SQL – 15%
• Python – podstawy – 15%
• Python – biblioteki wykorzystywane w Data Engineeringu – 25%
• Narzędzia GCP wykorzystywane w Data Engineeringu – 30%
Szacunkowy nakład pracy studenta: ECTS x 25h = 30h
(K) - godziny kontaktowe (S) - godziny pracy samodzielnej
wykład (zajęcia): 0h (K) 0h (S)
ćwiczenia (zajęcia): 28h (K) 0h (S)
egzamin: 2h (K) 0h (S)
konsultacje: 5h (K) 0h (S)
przygotowanie do ćwiczeń: 0h (K) 10h (S)
przygotowanie do wykładów: 0h (K) 0h (S)
przygotowanie do kolokwium: 0h (K) 10h (S)
przygotowanie do egzaminu: 0h (K) 0h (S)
…: 0h (K) 0h (S)
Razem: 35h (K) + 20h (S) = 55h
Rodzaj przedmiotu
Założenia (opisowo)
Koordynatorzy przedmiotu
Efekty kształcenia
Po ukończeniu kursu "Wstęp do Data Engineeringu w GCP", uczestnicy zdobędą umiejętności w korzystaniu z Google Cloud Platform, jednej z najpopularniejszych chmur na rynku. Będą w stanie pisać skomplikowane zapytania SQL oraz efektywnie wykorzystywać Pythona w codziennych zadaniach. Ponadto, zapoznają się z metodami integracji Pythona i SQL z chmurowym środowiskiem GCP. Kurs obejmuje również naukę systemu kontroli wersji GIT. Przygotowane zadania opierają się na rzeczywistych scenariuszach (real case’ach), z którymi uczestnicy mogą spotkać się w swojej przyszłej pracy zawodowej.
Kryteria oceniania
Kolokwium pod koniec semestru
Literatura
Oficjalna dokumentacja Google’a - https://cloud.google.com/docs
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: