Wstęp do Data Engineeringu w GCP 2400-ZEWW925
Spis treści
1. Wstęp
1.1 Do kogo skierowany jest niniejszy kurs – wymagania wstępne
1.2 O kursie
1.3 Czym właściwie jest Data Engineering
2. Google Cloud Platform – informacje ogólne
2.1 Czym jest Google Cloud Platform
2.2 Konfiguracja projektu w GCP
2.3 Zarządzanie kosztami – billing
2.4 Zarządzanie dostępem (IAM)
2.5 Monitoring i logowanie
3. Google BigQuery
3.1 Czym jest Google BigQuery
3.2 Datasety w BigQuery
3.3 Pisanie zapytań
3.4 Tworzenie tabel w BigQuery
3.4.1 Tworzenie tabel będących wynikiem zapytania
3.4.2 Tworzenie tabel z Google Sheet’a
3.4.3 Tworzenie tabel z plików csv/parquet/avro w Google Cloud Storage
3.5 Schedulowanie zapytań
3.6 Data Transfer
4. SQL
4.1 Struktura zapytania
4.2 Funkcje skalarne w Standard SQL
4.3 Instrukcje warunkowe
4.4 Podzapytania i CTE
4.5 Złączenia tabel
4.6 Funkcje okienkowe
4.7 Funkcja Pivot
4.8 Praca z obiektami ARRAY
4.9 Praca z obiektami STRUCT
4.10 Praca z obiektami JSON
4.11 Optymalizacja zapytań w BigQuery
5. Python
5.1 Konfiguracja lokalnego środowiska pracy
5.1.1 Instalacja Python 3.11, Git oraz PyCharm
5.1.2 Tworzenie virtual environment
5.2 Podstawy składni Python
5.2.1 Komunikacja z użytkownikiem
5.2.2 Zmienne i typy danych
5.2.3 Definiowanie funkcji
5.2.4 Operacje na tekstach
5.2.5 Operacje na datach – biblioteka datetime
5.3 Struktury danych
5.3.1 Listy
5.3.2 Krotki (tuples)
5.3.3 Słowniki
5.3.4 Sety
5.3.5 Porównanie struktur danych
5.4 Instrukcje warunkowe
5.4.1 Instrukcja if, elif, else
5.4.2 Instrukcja match
5.5 Pętle
5.5.1 Pętla for
5.5.2 Pętla while
5.6 Praca z danymi – biblioteka Pandas
5.6.1 Wprowadzenie do biblioteko Pandas
5.6.2 Podstawowe struktury danych w Pandas
5.6.3 Tworzenie DataFrame
5.6.4 Przeglądanie danych
5.6.5 Manipulacja danymi
5.6.6 Czyszczenie danych
5.6.7 Agregacja i grupowanie danych
5.6.8 Łączenie DataFrames
5.7 Praca z danymi – biblioteka JSON
5.7.1 Ładowanie i zapisywanie danych
5.7.2 Parsowanie i manipulacja danymi JSON
5.8 Praca z API – biblioteka requests
5.8.1 Wprowadzenie do requests
5.8.2 Podstawowe operacje HTTP
5.8.3 Praca z odpowiedzią
5.8.4 Parametry i nagłóki zapytań
5.9 Scraping danych – biblioteka BeautifulSoup
5.9.1 Wprowadzenie do web scrapingu
5.9.2 Instalacja i konfiguracja bs4
5.9.3 Podstawowe operacje – parsowanie HTML
5.9.4 Wyszukiwania elementów: find, find_all
5.9.5 Praca z danymi zebranymi z sieci
5.10 Wczytywanie plików zewnętrznych
6. Google Cloud Shell
6.1 Wprowadzenie do Google Cloud Shell
6.2 Podstawowe komendy i operacje
6.3 Konfiguracja środowiska pracy
6.4 Tworzenie i zarządzanie projektami GCP z Cloud Shell
6.5 Operacje na tabelach w BigQuery
6.6 Integracja z GitHubem
7. Cloud Functions
7.1 Czym są Cloud Functions
7.2 Tworzenie Cloud Function
8. Cloud Scheduler
8.1 Czym jest Cloud Scheduler
8.2 Schedulowanie funkcji przy użyciu CRONa
8.3 Automatyzacja zadań z użyciem Cloud Schedulera i Cloud Function
9. Cloud Pub/Sub
9.1 Wprowadzenie do Cloud Pub/Sub
9.2 Konfigurowanie i używanie tematów i subskrypcji
9.3 Integracja z innymi usługami GCP
10. Projekt końcowy
Rodzaj przedmiotu
Koordynatorzy przedmiotu
Efekty kształcenia
Po ukończeniu kursu "Wstęp do Data Engineeringu w GCP", uczestnicy zdobędą umiejętności w korzystaniu z Google Cloud Platform, jednej z najpopularniejszych chmur na rynku. Będą w stanie pisać skomplikowane zapytania SQL oraz efektywnie wykorzystywać Pythona w codziennych zadaniach. Ponadto, zapoznają się z metodami integracji Pythona i SQL z chmurowym środowiskiem GCP. Kurs obejmuje również naukę systemu kontroli wersji GIT. Przygotowane zadania opierają się na rzeczywistych scenariuszach (real case’ach), z którymi uczestnicy mogą spotkać się w swojej przyszłej pracy zawodowej.
Kryteria oceniania
Dwa kolokwia cząstkowe (2x25%) + projekt końcowy (50%)
Literatura
Oficjalna dokumentacja Google’a - https://cloud.google.com/docs
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: