Uczenie maszynowe 1000-1L24UM

Sieci neuronowe mają wiele różnych zastosowań: mogą tłumaczyć teksty, grać w gry, rozpoznawać mowę lub interpretować obraz z kamery robota. Na naszych zajęciach skoncentrujemy się na sieciach generatywnych – Generative AI, krócej GenAI – czyli sieciach służących do tworzenia nowych treści przypominających dane uczące, np. twarze, wiersze, muzykę czy warunki zewnętrzne, w których będzie działał robot.

Projektowanie generatywnych sieci neuronowych wymaga wiedzy i umiejętności matematycznych z różnych dziedzin. W szczególności popularne sieci w swoim domyślnym trybie działania generują obiekty startując z szumu, czyli obserwacji pochodzącej z wielowymiarowego rozkładu normalnego. Warto więc umieć rachować na rozkładach prawdopodobieństwa. Z kolei minimalizacja średniej funkcji straty wymaga zrozumienia algorytmów automatycznego różniczkowania i stochastycznego spadku po gradiencie. Ponadto – w zależności od sieci – potrzebna jest dodatkowa wiedza. I tak:

Generative Adversarial Networks (GAN) generują obiekty w jednym kroku za pomocą “generatora”, ale w procesie uczenia potrzebują dodatkowej podsieci – “dyskryminatora”. Generator i dyskryminator aktualizują swoje parametry rywalizując ze sobą jak fałszerze pieniędzy z policją. Zrozumienie budowy i działania GANów oraz wyprowadzenie funkcji straty jest oparte na prostszym modelu logistycznym i kryterium minimaksowym. GANy wprowadzono w pracy [2], a ich nowa wersja została zaimplementowana przez NVIDIA’ę w programie styleGAN2.
Denoising Diffusion (DD) generują treści w wielu krokach odfiltrowując szum stopniowo. Są to ciągi wielowymiarowych rozkładów normalnych, których parametry (wektory wartości oczekiwanych i macierze kowariancji) zadane są przez głębokie sieci neuronowe. Zrozumienie DD wymaga szacowania całek, ponieważ zamiast pierwotnej funkcji straty minimalizuje się jej górne oszacowanie w postaci wartości oczekiwanej po dodatkowych zmiennych. Metoda została wprowadzona w [3] i jest zaimplementowana w popularnych programach do generowania obrazów: DALL-E 3, Imagen oraz Stable Diffusion.
Continuous Normalizing Flows to sieci z dużą liczbą warstw, w których przejście z warstwy do warstwy modelowane jest za pomocą równania różniczkowego zwyczajnego podobnie jak przepływ płynu. Takie sieci generują nowe treści rozwiązując numerycznie równanie z warunkiem początkowym wygenerowanym z rozkładu normalnego. Nowa wersja metody została opisana w [4] i jest dostępna jako Stable Diffusion 3.

GenAI jest szczególnie atrakcyjna dla matematyków: techniki programowania tracą na znaczeniu w miarę rozwoju chatbotów pomagających w pisaniu kodu (np. GitHub Copilot), natomiast zyskują wiedza i umiejętności oparte na analizie matematycznej.

Zdecydowanie rekomendujemy uczestnikom proseminarium udział w następujących wykładach obieralnych: w semestrze zimowym: Analiza numeryczna, Optymalizacja nieliniowa, Statystyka, Statystyka bayesowska oraz Rachunek prawdopodobieństwa II; w semestrze letnim: Uczenie maszynowe oraz Wstęp do procesów stochastycznych.

Referaty studentów będą oparte głównie na monografii [1] i pracach takich, jak [2]-[4]. Referaty i prace licencjackie będą mogły być projektami zespołowymi. Prace licencjackie będą mogły mieć matematyczną formę lub stanowić opis przygotowanego programu komputerowego.

Rodzaj przedmiotu

proseminaria

Koordynatorzy przedmiotu

Szymon Nowakowski
Jan Peszek
Piotr Pokarowski

Efekty kształcenia

Student:

rozumie podstawowe metody głębokiego uczenia maszynowego,
umie programować sieci głębokie do predykcji i generowania nowych treści,
potrafi wyszukiwać potrzebne informacje w literaturze i internecie,
potrafi zrozumiale przekazywać treści matematyczne w mowie i piśmie.

Kryteria oceniania

Na podstawie wygłoszonych referatów i złożenia w systemie APD UW pracy licencjackiej.

Literatura

C.M. Bishop and H. Bishop, Deep Learning: Foundations and Concepts, Springer 2024, https://www.bishopbook.com/
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. Advances in neural information processing systems, 27.
Ho, J., Jain, A., & Abbeel, P. (2020). Denoising diffusion probabilistic models. Advances in neural information processing systems, 33.
Lipman, Y., Chen, R. T., Ben-Hamu, H., Nickel, M., & Le, M. (2022). Flow matching for generative modeling. arXiv preprint arXiv:2210.02747.

Więcej informacji

Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb:

Strona przedmiotu 1000-1L24UM w USOSweb