Analiza adwersaryjna, bezpieczeństwo i wyjaśnialność systemów sztucznej inteligencji 1000-2M24RTS
Rosnąca złożoność modeli i systemów sztucznej inteligencji tworzy nowe ciekawe wyzwania dotyczące analizy bezpieczeństwa, odporności i zachowania tych modeli. Na przedmiocie będziemy analizować i omawiać aktualne artykuły oraz kierunki badań nad godną zaufania sztuczną inteligencją. Z uwagi na dynamiczny rozwój tej tematyki, przedmiot nie ma sztywnego programu, ale będzie priorytetowo traktował wyzwania badawcze aktualne na moment prowadzenia przedmiotu, w szczególności artykuły opublikowane na tegorocznych konferencjach typu CVPR, NeurIPS, ICML, ECML.
Spodziewać się należy trzech bloków:
- Rozszerzenie technik XAI przedstawionych na przedmiocie 'Wyjaśnialne uczenie maszynowe' o techniki stosowane dla modeli głębokich sieci neuronowych, w tym stosowanych w zadaniach wizji komputerowej i modeli językowych.
- Adwersaryjna analiza modeli (red-teaming modeli) mająca na celu zidentyfikowanie i naprawienie ich słabych stron. W tym bloku omawiane będą techniki ataku z frameworków NIST, OWASP oraz MITTRE.
- Zagadnienia związane z zagadnieniami społecznymi, takimi jak analiza biasów, problematyką etyki dla AI, przewidywanie nieoczywistych konsekwencji wdrażania rozwiązań AI.
Część wykładowa to 7 dwugodzinnych spotkań, z których
- dwa są poświęcone metodom wyjaśnień modeli głębokich sieci, np. wyjaśnienia kontrfaktyczne: wstęp do zagadnienia, aktualne metody i wykorzystywane narzędzia; Przegląd attribution metod w wizji / ewaluacja wyjaśnień w wizji
- dwa są poświęcone aktualnym metodom red-teamingu modeli AI, np. Glaze: Protecting Artists from Style Mimicry by Text-to-Image Models; Red Teaming Language Models with Language Models
- dwa są poświęcone zagadnieniom społecznym, takich jak detekcja biasu lub etyka AI
- jeden przeznaczony na prezentacje studentów
Część laboratoryjna to 7 dwugodzinnych spotkań w sali komputerowej w której studenci będą rozwiązywać zadania lub odtwarzać wyniki nawiązujące tematycznie do części wykładowej
Część projektowa to realizacja większego zespołowego projektu badawczego mającego na celu przeprowadzenie ataku/wyjaśnienia na jeden z popularnych modeli podstawowych.
Rodzaj przedmiotu
Wymagania (lista przedmiotów)
Założenia (lista przedmiotów)
Założenia (opisowo)
Koordynatorzy przedmiotu
Efekty kształcenia
Zamierzone efekty kształcenia podzielone na trzy grupy: wiedza, umiejętności, kompetencje (lista efektów znajduje się w drugim załączniku)
K_W08 ma podstawową wiedzę dotyczącą uwarunkowań prawnych i etycznych związanych z działalnością naukową i dydaktyczną
K_U13 potrafi przygotować (także w języku angielskim) opracowanie naukowe z wybranej dziedziny informatyki
K_U12 potrafi opisywać wybrane problemy informatyczne i ich rozwiązania w sposób zrozumiały dla nieinformatyka; potrafi przygotować prezentację (artykuł) z użyciem narzędzi informatycznych
K_U11 posiada pogłębioną umiejętność przygotowania wystąpień ustnych, w języku polskim i języku obcym, w zakresie informatyki lub w obszarze leżącym na pograniczu różnych dyscyplin naukowych
K_K01 zna ograniczenia własnej wiedzy i rozumie potrzebę dalszego kształcenia, w tym zdobywania wiedzy pozadziedzinowej
K_K03 potrafi pracować zespołowo, w tym w zespołach interdyscyplinarnych; rozumie konieczność systematycznej pracy nad wszelkimi projektami, które mają długofalowy charakter
K_K04 rozumie i docenia znaczenie uczciwości intelektualnej w działaniach własnych i innych osób; postępuje etycznie
Kryteria oceniania
Zasady wg których będą wyznaczane oceny
Zaliczenie przedmiotu oparte będzie o punkty, na które składają się cztery rodzaje aktywności:
- opracowanie projektu demonstrującego wybrane zagadnienia z tematyki TAI (60%)
- przedstawienie aktualnej publikacji naukowej z tematyki TAI (15%)
- aktywność na zajęciach TAI (10%)
- test weryfikujący kompetencje (15%)
Credit for the course will be based on points, consisting of four types of activity:
- development of a project demonstrating selected issues in the TAI subject area (60%)
- presentation of a recent scientific publication on TAI topics (15%)
- a test to verify competences (15%)
- activity during classes (10%)
Literatura
Machine Learning for High-Risk Applications
https://www.oreilly.com/library/view/machine-learning-for/9781098102425/
Fairness and Machine Learning
https://mitpress.mit.edu/9780262048613/fairness-and-machine-learning/
Adversarial Model Analysis
https://ama.drwhy.ai/
Więcej informacji
Więcej informacji o poziomie przedmiotu, roku studiów (i/lub semestrze) w którym się odbywa, o rodzaju i liczbie godzin zajęć - szukaj w planach studiów odpowiednich programów. Ten przedmiot jest związany z programami:
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: