Kult istotności statystycznej a idee otwartej nauki 1400-236KIS-n

Wykład poświęcony jest przede wszystkim powszechnej praktyce sprowadzania wnioskowania statystycznego do testów istotności statystycznej, możliwym jej przyczynom i negatywnym dla nauki skutkom. Odwołując się do wybranych prostych metod statystycznych pokazuje jak skromnej ilości informacji dostarcza testowanie i jak bardzo jest przeceniane. Jednocześnie, analizowane są różne powszechnie występujące przejawy błędnych przekonań na temat istotności statystycznej lub jej braku. Pytanie o ich przyczyny prowadzi do rozważań nad funkcjonowaniem ludzkiego umysłu, także w kontekście ewolucyjnym. Zaś pytanie o skutki – do rozpatrzenia niewątpliwie znacznej roli paradygmatu testowania statystycznego w coraz powszechniej dostrzeganym kryzysie powtarzalności wyników w nauce.
Refleksje te prowadzą do pytania , w jakim stopniu stosowanie zasad otwartej nauki może pomóc w rozwiązaniu problemów stworzonych przez paradygmat testowania istotności. Dopóki on obowiązuje, dopóty otwarty dostęp do zasobów nauki nie zlikwiduje ślepoty na niepewności statystyczne.
Wykład nie jest kursem statystyki, a wybrane metody statystyczne rozpatrywane są nie tyle w kontekście szczegółów ich podstaw matematycznych, a jako przykłady w aspekcie charakteru odpowiedzi których dostarczają na temat badanych fragmentów rzeczywistości. Pojawiają się metody parametryczne i nieparametryczne dla jednej i dwu prób, analiza wariancji w klasyfikacji pojedynczej i podwójnej, metody analizy częstości, analiza korelacji, regresji liniowej i regresji logistycznej, przykłady metod wielowymiarowych. Szczególna uwaga poświęcona jest niepewnościom w analizie interakcji, jako jednej z kwestii bardziej zaniedbywanych w podręcznikach.
Krótkie omówienia niektórych spośród tych metod powiązane jest z rozpatrzeniem kwestii i pytań ogólniejszych, które zajmują znaczącą część wykładu, np.:
(1) Ważniejsze argumenty w trwającej przez dziesięciolecia debacie na temat użyteczności testów istotności – od akceptacji, przez uznanie konieczności, po postulat wyeliminowania testów z praktyki naukowej. Moc testu statystycznego. Rozpowszechnione, ale rzadko respektowane zalecenia dotyczące wystarczającej mocy statystycznej. Paradoks nadmiernej mocy, wynikający z błędnego rozumienia testów. Moc testów a precyzja oszacowań.
(2) Współczesny paradygmat testowania istotności statystycznej jako zadziwiający produkt ewolucji kulturowej – hybryda różnych koncepcji, których autorzy najpewniej by się pod obecnym wynikiem nie podpisali.
(3) Czym jest wynik negatywny? Wnioskowanie z niewiedzy, wszechobecność błędów II rodzaju. Kiedy wynik negatywny jest wynikiem, a kiedy brakiem wyniku? Wiedza o braku znacznych efektów może być ważną wiedzą, czasami o taką właśnie chodzi. Ważne nauki płynące z metod testowania (bio)równoważności. Dokonywana wbrew ogólnej regule akceptacja hipotez zerowych jako często występujący element procedur statystycznych, jej poważny negatywny wpływ na poprawność wnioskowań. Skrajne konsekwencje poglądów Johna Ioannidisa: kiedy zaawansowana aparatura badawcza zostaje sprowadzona do roli najdroższego generatora liczb losowych?
(4) "Polowanie" na istotność statystyczną, tzw. torturowanie danych, a czasem wręcz torturowanie rzeczywistości. Interpretacje wyników "prawie istotnych" statystycznie, co może tkwić u ich podstaw? Tradycyjne rozróżnienie między istotnością statystyczną a istotnością merytoryczną i jego niekompletność z punktu widzenia kontroli ryzyka błędu. HARKing.
(5) Istotność statystyczna postrzegana – absurdalnie – jako wymiar rzeczywistości. Elementy analizy języka używanego w opisie statystycznej analizy wyników badań. Pomieszanie stwierdzeń dotyczących prób ze stwierdzeniami dotyczącymi zbiorowości. Figury retoryczne pozwalające uniknąć nie tylko pytań ilościowych, ale też spełnienia powszechnie wymaganego kryterium istotności statystycznej. Jak bardzo poważnie jest traktowane wnioskowanie statystyczne przez badaczy? Oczekiwania badaczy w stosunku do statystyków, faktyczne miejsce wnioskowań statystycznych w procesach badawczych. Istotność statystyczna, empatia i etyka analizy danych.
(6) Zmniejszanie się efektów w kolejnych badaniach tego samego zjawiska. Tzw. filtr istotności i przeszacowywanie efektów, "przekleństwo zwycięzcy". Poprawki na wielokrotne testowanie, rozbieżności poglądów statystyków na celowość ich stosowania, częstość fałszywych odkryć, selektywne przedstawianie wyników.
(7) Jak silną chcemy mieć pewność i czego ma ona dotyczyć? Ryzyka błędów I rodzaju i III rodzaju (kierunkowego, typu S) a poziomy ufności. Pomyłka Jerzego Neymana, uznawanego za ojca przedziałów ufności, w uzasadnieniu potrzeby ich wyznaczania – czy badacze rzeczywiście chcą oszacowań przedziałowych? Wcześniejsza historia przedziałów ufności, powracające mało skuteczne nawoływania do stosowania estymacji przedziałowej, tzw. "reforma statystyczna" i "nowa statystyka".
(8) Dwie ważne przeszkody na które napotyka myślenie w kategoriach przedziałowych: niechęć do niepewności i nadmierny optymizm. Aspekty psychologiczne i próby wyjaśnień ewolucyjnych. Prawo wielkich liczb i wiara w "prawo małych liczb" (sensu Tversky i Kahnemann). Zachowania w obliczu niepewności, Zasada Rzeczy Pewnej (Sure Thing Principle) L. Savage'a i jej częste naruszenia. Realizm depresyjny a ewolucja nadmiernego optymizmu. Optymizm jako strategia osobnika lub jako realizowanie przez osobnika strategii ewolucyjnej, w którą zdarzyło mu się zostać wpisanym. Z jakiego punktu widzenia "obsesja średnich" jest błędem, a z jakiego nim nie jest?
(9) Kryzys odtwarzalności i powtarzalności w nauce (irreproducibility crisis), jego nagłośnienie w ciągu ostatnich dwu dekad, inicjatywy podjęte w celu zrozumienia problemu. Odtwarzalność i powtarzalność w ujęciu metrologii a mniej precyzyjne rozumienie tych terminów w nauce czystej. Kiedy uznaje się, że wynik wcześniejszego doświadczenia udało się powtórzyć? Rola paradygmatu testowania statystycznego w kryzysie powtarzalności. Kult istotności statystycznej jako zjawisko odwracające uwagę od ważnych pytań. Wybrane próby poprawienia sytuacji i związane z nimi kontrowersje.
Niektóre aspekty obliczeniowe omawianych podejść do wnioskowania statystycznego są przedmiotem osobnych zajęć "Ukryte niepewności statystyczne a powtarzalność wyników badań".
Ostrzeżenie: uświadomienie sobie skali niepewności statystycznych może zniechęcać do mechanicznego i bezrefleksyjnego stosowania wielu rozpowszechnionych procedur.

Kierunek podstawowy MISMaP

biologia
psychologia
matematyka
astronomia
geologia
biotechnologia
fizyka
informatyka
geografia
gospodarka przestrzenna
ochrona środowiska
chemia
geologia stosowana

Koordynatorzy przedmiotu

Tomasz Wyszomirski

Rodzaj przedmiotu

fakultatywne

Tryb prowadzenia

w sali

Założenia (opisowo)

Uwaga: Grupa wykładowa jest wspólna z przedmiotem 1400-236KIS-n-OG o tym samym tytule i tej samej treści.

Efekty kształcenia

Efekty uczenia
Po zaliczeniu kursu student:
- zna powiązania między testowaniem hipotez statystycznych i przedziałową estymacją parametrów i ocenia odmienność informacji otrzymywanych za pomocą tych metod;
- jest świadom znacznych rozmiarów losowej zmienności wyników doświadczeń i jej konsekwencji dla wyników testowania hipotez i estymacji przedziałowej oraz niskiej powtarzalności wyników doświadczeń.
- rozumie potrzebę kwantyfikacji niepewności statystycznych i zna stosowane w tym celu metody;
- wykazuje zmniejszoną podatność na uleganie urokowi istotności statystycznej;
- potrafi odnosić się krytycznie do stwierdzeń napotkanych w literaturze;
- jest wyczulony na rozróżnienie merytorycznych i społecznych uwarunkowań wnioskowania w badaniach naukowych;
- potrafi używać spójnej i wnikliwej argumentacji do pokazania obszarów niepewności;
- dostrzega potrzebę analizowania wyników badań z różnych punktów widzenia.

Kryteria oceniania

Podstawą oceny jest opracowanie zawierające krytyczną analizę wybranych publikacji pod kątem wykorzystania w nich istotności statystycznej i wystąpienia różnych pułapek interpretacyjnych omawianych w trakcie wykładu. Krótka jego prezentacja przewidziana jest na końcowych zajęciach. Praca na takim esejem musi się rozpocząć dość wcześnie, po kilku pierwszych wykładach.

Literatura

Uzupełnienia w trakcie zajęć.

American Statistician Special Supplement. 2019. Statistical Inference in the 21st Century: A World Beyond p<0.05. Am.Stat. 73: sup1.: 1-401.
Amrhein V, Greenland S, McShane B. 2019. Retire statistical significance. Nature, 567: 305-307.
Appiah KA. 2017. As If: Idealization and Ideals. Harvard University Press.
Atmanspacher H, Maasen S (eds.) 2016. Reproducibility. Principles, Problems, Practices and Prospects. Wiley.
Berry D.A. 1996. Statistics. A Bayesian Perspective. Duxbury Press.
Boyd B. 2009. On the Origin of Stories. Evolution, Cognition, and Fiction. Harvard University Press.
Burton R.A. 2008. On Being Certain. Believing You Are Right Even When You're Not. St. Martin's Griffin.
Clarke BS, Clarke JL. 2018. Predictive statistics. Cambridge University Press.
Cumming G. 2011. Understanding the New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis. Routledge.
Dawkins R. 1982. The Extended Phenotype. The Gene as the Unit of Selection. Freeman. [Fenotyp rozszerzony. Dalekosiężny gen. 2003, Prószyński i S-ka]
Distin K. 2005. The Selfish Meme. A Critical Reassessment. Cambridge University Press.
Gelman A, Hill J, Vehtari A. 2021. Regression and Other Stories. Cambridge University Press.
Ghai S, Theriault R et al. 2025. A manifesto for a globally diverse,
equitable, and inclusive open science. Communications Psychology , 3:16
Gigerenzer G. 2008. Rationality for Mortals. How People Cope with Uncertainty. Oxford University Press.
Halsey LG, Curran-Everett D., Vowler SL, Drummond G. 2015. The fickle P value generates irreproducible results. Nature Methods, 12: 179-185.
Harlow L, Mulaik S, Steiger J, editors. 1997. What If There Were No Significance Tests? Lawrence Erlbaum Associates.
Hirschauer N, Gruner S, Musshoff O. 2022. Fundamentals of Statistical Inference. What is the Meaning of Random Error? Springer.
Hogarth R.M. 2001. Educating Intuition. University of Chicago Press.
Hubbard R. 2015. Corrupt research. SAGE.
Ioannidis J.P.A. 2005. Why most published research findings are false. PLoS Med 2(8): e124.
Jackman S. 2009. Bayesian Analysis for the Social Sciences. Wiley.
Kahnemann D. 2011. Thinking, Fast and Slow. Farrar, Straus and Giroux. [Pułapki myślenia. O myśleniu szybkim i wolnym. 2012, Media Rodzina]
Kahneman D, Sibony O, Sunstein CR. 2021. Noise. Little, Brown and Company. [Szum. Media Rodzina, 2022].
Kline R.B. 2004. Beyond SignificanceTesting. Reforming Data Analysis Methods in Behavioral Research. American Psychological Association.
Koivisto E, Mäntylä E. 2024. Are Open Science instructions targeted to ecologists and evolutionary biologists sufficient? A literature review of guidelines and journal data policies. Ecology and Evolution. 14: e11698.
Kurzban R. 2012. Why Everybody (Else) Is a Hypocrite: Evolution and the Modular Mind. Princeton University Press.
Lazzeroni LC, Lu Y, Belitskaya-Levy I. 2014. P-values in genomics: Apparent precision masks high uncertainty. Molecular Psychiatry, 19: 1336–1340.
Lecoutre B, Poitvineau J. 2014. The Significance Test Controversy Revisited. The Fiducial Bayesian Alternative. Springer.
Meeker WQ, Hahn GJ, Escobar LA. 2017. Statistical intervals: A guide for practitioners and researchers. Wiley.
Motulsky H. 2014. Intuitive Biostatistics, 3rd edition. Oxford University Press.
Nature Publishing Group. 2013. Announcement: Reducing our irreproducibility. Nature 496: 398.
Nuzzo R. 2014. Scientific method: statistical errors. Nature 506: 150-152.
Panter A, Sterba S, editors. 2011. Handbook of Ethics in Quantitative Methodology. Routledge.
Salsburg D. 2001. The Lady Tasting Tea. How Statistics Revolutionized Science In the Twentieth Century. Holt.
Savage S. 2012. The Flaw of Averages: Why We Underestimate Risk in the Face of Uncertainty. Wiley.
Schwab A, Starbuck WH. 2017. A Call for Openness in Research Reporting: How to Turn Covert Practices Into HelpfulTools. Academy of Management Learning & Education. 16: 125-141.
Schweder T, Hjort NL. 2016. Confidence, Likelihood, Probability: Statistical Inference with Confidence Distributions. Cambridge University Press.
Tannert C., Elvers HD, Jandrig B. 2011. The ethics of uncertainty. EMBO Reports, 8:892-896.
Thomas A, Bourg C, Saxe R. 2025. Beliefs about social dynamics and open science. R. Soc. Open Sci. 12: 230061.
Vaihinger H. 1925/2015. The Philosophy of As If. Random Shack.
Wang C. 1992. Sense and Nonsense of Statistical Inference: Controversy, Misuse, and Subtlety. CRC Press.
Wasserstein RL, Schirm AL. Lazar NA. 2019. Moving to a World Beyond "p<0.05". Am. Stat. 73:sup1: 1-19.
Ziliak S.T., McCloskey D.N. 2008. The Cult of Statistical Significance. How the Standard Error Costs us Jobs, Justice, and Lives. Michigan University Press

Uwagi

W cyklu 2026Z:

Uwaga: Grupa wykładowa jest wspólna z przedmiotem 1400-236KIS-n-OG o tym samym tytule i tej samej treści.