Wstęp do Data Engineeringu w GCP – część II 2400-ZEWW1000
Spis treści – część druga
1. Python
1.1 Konfiguracja lokalnego środowiska pracy
1.1.1 Instalacja Python 3.11, Git oraz PyCharm
1.1.2 Tworzenie virtual environment
1.2 Podstawy składni Python
1.2.1 Komunikacja z użytkownikiem
1.2.2 Zmienne i typy danych
1.2.3 Definiowanie funkcji
1.2.4 Operacje na tekstach
1.2.5 Operacje na datach – biblioteka datetime
1.3 Struktury danych
1.3.1 Listy
1.3.2 Krotki (tuples)
1.3.3 Słowniki
1.3.4 Sety
1.3.5 Porównanie struktur danych
1.4 Instrukcje warunkowe
1.4.1 Instrukcja if, elif, else
1.4.2 Instrukcja match
1.5 Pętle
1.5.1 Pętla for
1.5.2 Pętla while
1.6 Praca z danymi – biblioteka Pandas
1.6.1 Wprowadzenie do biblioteko Pandas
1.6.2 Podstawowe struktury danych w Pandas
1.6.3 Tworzenie DataFrame
1.6.4 Przeglądanie danych
1.6.5 Manipulacja danymi
1.6.6 Czyszczenie danych
1.6.7 Agregacja i grupowanie danych
1.6.8 Łączenie DataFrames
1.7 Praca z danymi – biblioteka JSON
1.7.1 Ładowanie i zapisywanie danych
1.7.2 Parsowanie i manipulacja danymi JSON
1.8 Praca z API – biblioteka requests
1.8.1 Wprowadzenie do requests
1.8.2 Podstawowe operacje HTTP
1.8.3 Praca z odpowiedzią
1.8.4 Parametry i nagłóki zapytań
1.9 Scraping danych – biblioteka BeautifulSoup
1.9.1 Wprowadzenie do web scrapingu
1.9.2 Instalacja i konfiguracja bs4
1.9.3 Podstawowe operacje – parsowanie HTML
1.9.4 Wyszukiwania elementów: find, find_all
1.9.5 Praca z danymi zebranymi z sieci
1.10 Wczytywanie plików zewnętrznych
2. Google Cloud Shell
2.1 Wprowadzenie do Google Cloud Shell
2.2 Podstawowe komendy i operacje
2.3 Konfiguracja środowiska pracy
2.4 Tworzenie i zarządzanie projektami GCP z Cloud Shell
2.5 Operacje na tabelach w BigQuery
2.6 Integracja z GitHubem
3. Cloud Functions
3.1 Czym są Cloud Functions
3.2 Tworzenie Cloud Function
4. Cloud Scheduler
4.1 Czym jest Cloud Scheduler
4.2 Schedulowanie funkcji przy użyciu CRONa
4.3 Automatyzacja zadań z użyciem Cloud Schedulera i Cloud Function
5. Cloud Pub/Sub
5.1 Wprowadzenie do Cloud Pub/Sub
5.2 Konfigurowanie i używanie tematów i subskrypcji
5.3 Integracja z innymi usługami GCP
6. Projekt końcowy
Podczas kursu będziemy korzystać z chmury google’a – Google Cloud Platform (GCP) oraz z Pythona w wersji 3.11. Sugerowane IDE do części związanej z Pythonem to Pycharm Enterprise (wszystko w wersjach darmowych)
Procentowo zagadnienia na kursie przedstawiają się mniej więcej następująco:
• SQL – powtórzenie – 15%
• BigQuery i zaawansowany SQL – 15%
• Python – podstawy – 15%
• Python – biblioteki wykorzystywane w Data Engineeringu – 25%
• Narzędzia GCP wykorzystywane w Data Engineeringu – 30%
Szacunkowy nakład pracy studenta: ECTS x 25h = 30h
(K) - godziny kontaktowe (S) - godziny pracy samodzielnej
wykład (zajęcia): 0h (K) 0h (S)
ćwiczenia (zajęcia): 30h (K) 0h (S)
egzamin: 0h (K) 0h (S)
konsultacje: 5h (K) 0h (S)
przygotowanie do ćwiczeń: 0h (K) 10h (S)
przygotowanie do wykładów: 0h (K) 0h (S)
przygotowanie do kolokwium: 0h (K) 10h (S)
przygotowanie do egzaminu: 0h (K) 0h (S)
projekt końcowy: 0h (K) 20h (S)
Razem: 35h (K) + 40h (S) = 75h
Rodzaj przedmiotu
Założenia (opisowo)
Koordynatorzy przedmiotu
Efekty kształcenia
Po ukończeniu kursu "Wstęp do Data Engineeringu w GCP", uczestnicy zdobędą umiejętności w korzystaniu z Google Cloud Platform, jednej z najpopularniejszych chmur na rynku. Będą w stanie pisać skomplikowane zapytania SQL oraz efektywnie wykorzystywać Pythona w codziennych zadaniach. Ponadto, zapoznają się z metodami integracji Pythona i SQL z chmurowym środowiskiem GCP. Kurs obejmuje również naukę systemu kontroli wersji GIT. Przygotowane zadania opierają się na rzeczywistych scenariuszach (real case’ach), z którymi uczestnicy mogą spotkać się w swojej przyszłej pracy zawodowej.
Kryteria oceniania
Projekt zaliczeniowy
Literatura
Oficjalna dokumentacja Google’a - https://cloud.google.com/docs
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: