Wstęp do Data Engineeringu w GCP – część II 2400-ZEWW1000

Spis treści – część druga
1. Python
1.1 Konfiguracja lokalnego środowiska pracy
1.1.1 Instalacja Python 3.11, Git oraz PyCharm
1.1.2 Tworzenie virtual environment
1.2 Podstawy składni Python
1.2.1 Komunikacja z użytkownikiem
1.2.2 Zmienne i typy danych
1.2.3 Definiowanie funkcji
1.2.4 Operacje na tekstach
1.2.5 Operacje na datach – biblioteka datetime
1.3 Struktury danych
1.3.1 Listy
1.3.2 Krotki (tuples)
1.3.3 Słowniki
1.3.4 Sety
1.3.5 Porównanie struktur danych
1.4 Instrukcje warunkowe
1.4.1 Instrukcja if, elif, else
1.4.2 Instrukcja match
1.5 Pętle
1.5.1 Pętla for
1.5.2 Pętla while
1.6 Praca z danymi – biblioteka Pandas
1.6.1 Wprowadzenie do biblioteko Pandas
1.6.2 Podstawowe struktury danych w Pandas
1.6.3 Tworzenie DataFrame
1.6.4 Przeglądanie danych
1.6.5 Manipulacja danymi
1.6.6 Czyszczenie danych
1.6.7 Agregacja i grupowanie danych
1.6.8 Łączenie DataFrames
1.7 Praca z danymi – biblioteka JSON
1.7.1 Ładowanie i zapisywanie danych
1.7.2 Parsowanie i manipulacja danymi JSON
1.8 Praca z API – biblioteka requests
1.8.1 Wprowadzenie do requests
1.8.2 Podstawowe operacje HTTP
1.8.3 Praca z odpowiedzią
1.8.4 Parametry i nagłóki zapytań
1.9 Scraping danych – biblioteka BeautifulSoup
1.9.1 Wprowadzenie do web scrapingu
1.9.2 Instalacja i konfiguracja bs4
1.9.3 Podstawowe operacje – parsowanie HTML
1.9.4 Wyszukiwania elementów: find, find_all
1.9.5 Praca z danymi zebranymi z sieci
1.10 Wczytywanie plików zewnętrznych
2. Google Cloud Shell
2.1 Wprowadzenie do Google Cloud Shell
2.2 Podstawowe komendy i operacje
2.3 Konfiguracja środowiska pracy
2.4 Tworzenie i zarządzanie projektami GCP z Cloud Shell
2.5 Operacje na tabelach w BigQuery
2.6 Integracja z GitHubem
3. Cloud Functions
3.1 Czym są Cloud Functions
3.2 Tworzenie Cloud Function
4. Cloud Scheduler
4.1 Czym jest Cloud Scheduler
4.2 Schedulowanie funkcji przy użyciu CRONa
4.3 Automatyzacja zadań z użyciem Cloud Schedulera i Cloud Function
5. Cloud Pub/Sub
5.1 Wprowadzenie do Cloud Pub/Sub
5.2 Konfigurowanie i używanie tematów i subskrypcji
5.3 Integracja z innymi usługami GCP
6. Projekt końcowy

Podczas kursu będziemy korzystać z chmury google’a – Google Cloud Platform (GCP) oraz z Pythona w wersji 3.11. Sugerowane IDE do części związanej z Pythonem to Pycharm Enterprise (wszystko w wersjach darmowych)
Procentowo zagadnienia na kursie przedstawiają się mniej więcej następująco:
• SQL – powtórzenie – 15%
• BigQuery i zaawansowany SQL – 15%
• Python – podstawy – 15%
• Python – biblioteki wykorzystywane w Data Engineeringu – 25%
• Narzędzia GCP wykorzystywane w Data Engineeringu – 30%

Szacunkowy nakład pracy studenta: ECTS x 25h = 30h
(K) - godziny kontaktowe (S) - godziny pracy samodzielnej
wykład (zajęcia): 0h (K) 0h (S)
ćwiczenia (zajęcia): 30h (K) 0h (S)
egzamin: 0h (K) 0h (S)
konsultacje: 5h (K) 0h (S)
przygotowanie do ćwiczeń: 0h (K) 10h (S)
przygotowanie do wykładów: 0h (K) 0h (S)
przygotowanie do kolokwium: 0h (K) 10h (S)
przygotowanie do egzaminu: 0h (K) 0h (S)
projekt końcowy: 0h (K) 20h (S)
Razem: 35h (K) + 40h (S) = 75h

Rodzaj przedmiotu

nieobowiązkowe

Założenia (opisowo)

Założenia wstępne Minimalne wymagania przed przystąpieniem do kursu to podstawowa znajomość SQLa oraz podstawowa znajomość Pythona. Jeżeli student nie posiada wiedzy na takim poziomie – nie ma żadnego problemu – będzie mógł ją nadrobić w trakcie kursu, gdyż część materiału przewidziana jest na powtórzenie.

Koordynatorzy przedmiotu

Igor Rębas

Efekty kształcenia

Po ukończeniu kursu "Wstęp do Data Engineeringu w GCP", uczestnicy zdobędą umiejętności w korzystaniu z Google Cloud Platform, jednej z najpopularniejszych chmur na rynku. Będą w stanie pisać skomplikowane zapytania SQL oraz efektywnie wykorzystywać Pythona w codziennych zadaniach. Ponadto, zapoznają się z metodami integracji Pythona i SQL z chmurowym środowiskiem GCP. Kurs obejmuje również naukę systemu kontroli wersji GIT. Przygotowane zadania opierają się na rzeczywistych scenariuszach (real case’ach), z którymi uczestnicy mogą spotkać się w swojej przyszłej pracy zawodowej.

Kryteria oceniania

Projekt zaliczeniowy

Literatura

Oficjalna dokumentacja Google’a - https://cloud.google.com/docs

Więcej informacji

Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb:

Strona przedmiotu 2400-ZEWW1000 w USOSweb