Statystyka w psychologii: jak liczby pomagają nauce albo tworzą pozory pewności

Na ekranie pojawia się liczba. Mała, elegancka, niemal magiczna: p < 0,05. W sali robi się spokojniej, bo wynik jest „istotny statystycznie”. Hipoteza wygląda, jakby przeszła przez bramkę kontroli bezpieczeństwa i dostała stempel: nauka.

Ale w psychologii to nie jest koniec śledztwa. To dopiero moment, w którym trzeba zapytać: co właściwie zmierzyliśmy, jak mocny jest efekt, ile było decyzji po drodze i czy ktoś inny potrafi zobaczyć to samo zjawisko jeszcze raz?

Statystyka jest w psychologii niezbędna, bo psychologia bada człowieka, a człowiek jest zmienny. Nie reagujemy jak identyczne próbki materiału. Ten sam bodziec może inaczej zadziałać rano, inaczej wieczorem, inaczej w grupie studentów, inaczej wśród osób starszych, inaczej w laboratorium, inaczej w życiu. Bez liczb naukowcy tonęliby w intuicjach.

Jednocześnie liczby mają społeczną przewagę nad zdaniem. Brzmią twardziej. Są bardziej eleganckie. Łatwiej je wstawić do nagłówka, slajdu i abstraktu. I dlatego potrafią kłamać bez kłamcy: nie przez fałszerstwo, ale przez nadinterpretację.

Co robi statystyka

Najprościej mówiąc, statystyka pomaga odpowiedzieć na pytanie: czy to, co widzimy w danych, może być czymś więcej niż przypadkowym szumem?

Wyobraźmy sobie badanie nad snem i pamięcią. Jedna grupa śpi osiem godzin, druga cztery. Potem obie rozwiązują test zapamiętywania słów. Jeśli grupa wyspana wypada lepiej, badacz musi zapytać: czy sen naprawdę pomógł, czy po prostu ta konkretna grupa przypadkiem miała osoby z lepszą pamięcią, mniejszym stresem albo większą motywacją?

Statystyka nie usuwa niepewności. Ona ją porządkuje.

Pozwala obliczyć, jak duża jest różnica między grupami, jak szeroki jest margines błędu, czy wynik jest stabilny i jak bardzo pasuje do modelu. Bez tego psychologia byłaby zbiorem anegdot: „u mnie działa”, „u mnie nie działa”, „miałem takie wrażenie”.

Dobra statystyka robi coś jeszcze: zmusza do pokory. Pokazuje, że nawet wyraźny wykres może mieć szeroki cień niepewności.

Pułapka jednej magicznej liczby

Najbardziej znanym symbolem statystyki w psychologii jest p-value. W uproszczeniu mówi ono, jak bardzo uzyskane dane byłyby zaskakujące, gdyby przyjęty model statystyczny był prawdziwy, często przy założeniu braku badanego efektu.

I tu zaczyna się problem, bo p-value bardzo często bywa opowiadane tak, jakby mówiło coś innego.

Nie mówi, że hipoteza jest prawdziwa.

Nie mówi, że efekt jest ważny.

Nie mówi, że ryzyko pomyłki wynosi dokładnie 5 procent.

Nie mówi, że badanie należy uznać za rozstrzygające.

A jednak w praktyce granica 0,05 przez lata działała jak rytualna linia. Po jednej stronie wynik „istotny”. Po drugiej „nieistotny”. Jakby rzeczywistość zmieniała się skokowo między p = 0,049 a p = 0,051.

To warto zapisać: p-value nie jest miarą prawdziwości hipotezy. Jest informacją o zgodności danych z określonym modelem. Bez kontekstu, wielkości efektu, jakości pomiaru i planu badania może bardziej ozdabiać wynik, niż go wyjaśniać.

Dlatego współczesna metodologia coraz mocniej podkreśla, że sama „istotność statystyczna” nie wystarcza. Potrzebujemy też wielkości efektu, czyli odpowiedzi na pytanie: jak duża jest różnica albo zależność? Bo można znaleźć efekt statystycznie istotny, który w praktyce jest mikroskopijny.

Mechanizm złudzenia pewności

Jak z uczciwego badania może powstać przesadnie pewny wniosek?

Czasem zaczyna się niewinnie. Badacz ma dane i kilka możliwych decyzji. Kogo wykluczyć z analizy? Jak potraktować skrajne wyniki? Który wskaźnik wybrać? Czy analizować kobiety i mężczyzn razem, czy osobno? Czy kontrolować wiek, poziom stresu, wykształcenie, nastrój?

Każda decyzja może być uzasadniona. Problem w tym, że jeśli podejmujemy je już po zobaczeniu danych, zaczynamy chodzić po ogrodzie rozwidlających się ścieżek. Nie trzeba oszukiwać. Wystarczy po drodze wybierać te zakręty, które wyglądają najbardziej obiecująco.

Na końcu może pojawić się wynik „istotny”, ale nie dlatego, że świat wysłał wyraźny sygnał. Raczej dlatego, że analiza miała wiele ukrytych dróg, a opublikowano tylko tę, która doprowadziła do efektownej bramy.

To zjawisko bywa nazywane p-hackingiem albo badawczą elastycznością. Jego sedno jest proste: im więcej próbujesz wariantów, tym większa szansa, że jeden z nich przypadkiem da wynik wyglądający na odkrycie.

W psychologii ma to szczególne znaczenie, bo badane zjawiska bywają subtelne, pomiary niedoskonałe, a próby przez lata często były mniejsze, niż powinny. Jeśli efekt jest mały, próba niewielka, a analiza elastyczna, statystyka może zacząć przypominać aparat fotograficzny ustawiony na zbyt długi czas naświetlania. Coś widać. Ale kontury są rozmazane.

Przykład z życia: nagłówek, który brzmi zbyt dobrze

Wyobraźmy sobie nagłówek: „Nowe badanie pokazuje, że osoby pijące kawę są bardziej kreatywne”.

Brzmi lekko. Idealne do udostępnienia. Ale zanim uznamy to za wiedzę, trzeba zapytać o kilka rzeczy.

Ile osób zbadano? Jak mierzono kreatywność? Czy porównywano kawę z placebo, herbatą, wodą, czy po prostu pytano ludzi o nawyki? Czy kontrolowano sen, wiek, stres, zawód i porę dnia? Czy badanie było wcześniej zaplanowane, czy analiza powstała po obejrzeniu danych? Jak duży był efekt? Czy ktoś to powtórzył?

Jedno badanie może być ciekawe. Dwa podobne badania są mocniejsze. Wiele niezależnych badań, z jawnymi danymi, sensowną próbą, podobnym efektem i jasną metodą, zaczyna budować wiedzę.

Psychologia nie potrzebuje mniej statystyki. Potrzebuje statystyki mniej teatralnej, a bardziej kontrolnej.

Co zmienił kryzys replikacyjny

W 2015 roku duży projekt replikacyjny spróbował powtórzyć 100 badań z psychologii. Wynik stał się jednym z najgłośniejszych momentów współczesnej debaty o jakości badań: część efektów nie odtworzyła się tak, jak oczekiwano.

Nie znaczy to, że „psychologia jest fałszywa”. To byłoby zbyt proste i niesprawiedliwe. Znaczy raczej, że nauka o człowieku musiała ostrzej przyjrzeć się własnym narzędziom: małym próbom, presji publikowania wyników pozytywnych, elastyczności analiz, niedostatecznemu raportowaniu metod i zbyt łatwemu przywiązywaniu się do jednej liczby.

Po tym przyszła fala reform: prerejestracja, czyli zapisywanie hipotez i planu analizy przed zebraniem lub sprawdzeniem danych; jawne dane i materiały; raporty rejestrowane, w których czasopismo ocenia pytanie i metodę przed poznaniem wyniku; większy nacisk na replikacje, wielkość efektu i przedziały ufności.

To ważna zmiana kultury. Dawniej najbardziej opłacało się przywieźć z laboratorium efektowny wynik. Coraz częściej ceni się także wynik nudniejszy, ale solidny: dobrze zaplanowany, przejrzysty i możliwy do sprawdzenia.

Jak czytać liczby w psychologii

Dobra zasada jest prosta: nie pytaj tylko, czy wynik jest istotny. Pytaj, co on właściwie znaczy.

Czy efekt jest duży, czy tylko wykrywalny?

Czy próba była wystarczająca?

Czy hipoteza była ustalona wcześniej?

Czy analiza była jedna, czy wiele?

Czy dane i materiały są dostępne?

Czy ktoś powtórzył wynik?

Czy wniosek pasuje do metody, czy wybiega daleko poza nią?

Statystyka nie jest pieczątką prawdy. Jest językiem ostrożności. Jej najlepsza wersja nie mówi: „uwierz”. Mówi: „sprawdź, jak mocny jest sygnał, gdzie kończą się dane i ile zostaje niepewności”.

Właśnie dlatego liczby są w psychologii tak cenne. Nie dlatego, że dają absolutną pewność, ale dlatego, że pozwalają uczciwie mierzyć jej brak.

Wnioski

Statystyka w psychologii jest jak lupa. Może pokazać wzór, którego nie widać gołym okiem. Może odróżnić przypadkowy hałas od powtarzalnego sygnału. Może pomóc budować wiedzę o pamięci, emocjach, decyzjach, terapii, uczeniu się i relacjach.

Ale lupa może też zniekształcać, jeśli patrzymy przez nią pod złym kątem.

Pozory pewności powstają wtedy, gdy wynik statystyczny zostaje oderwany od metody, skali efektu, jakości danych i replikacji. Gdy „p < 0,05” zaczyna pełnić rolę zakończenia rozmowy. Gdy wykres wygląda lepiej niż procedura, która go stworzyła.

Najbardziej uczciwa odpowiedź brzmi więc: liczby pomagają psychologii, kiedy są używane jako narzędzie kontroli. Szkodzą, kiedy stają się dekoracją pewności.

A najlepszy test rozstrzygający jest brutalnie prosty: czy ten sam efekt przetrwa większą próbę, jawny plan analizy, niezależną replikację i pytanie o realną wielkość zjawiska?

Jeśli tak, mamy naukę.

Jeśli nie, mamy tylko ładną liczbę.

ŹRÓDŁA

American Statistical Association, Statement on Statistical Significance and P-Values: https://www.amstat.org/asa/files/pdfs/p-valuestatement.pdf
Wasserstein, R. L., Lazar, N. A., The ASA Statement on p-Values: Context, Process, and Purpose: https://www.tandfonline.com/doi/full/10.1080/00031305.2016.1154108
Open Science Collaboration, Estimating the Reproducibility of Psychological Science: https://www.science.org/doi/10.1126/science.aac4716
Reproducibility Project: Psychology, Open Science Framework: https://osf.io/ezcuj/overview
Simmons, J. P., Nelson, L. D., Simonsohn, U., False-Positive Psychology: https://pubmed.ncbi.nlm.nih.gov/22006061/
Gelman, A., Loken, E., The Garden of Forking Paths: https://sites.stat.columbia.edu/gelman/research/unpublished/p_hacking.pdf
Nosek, B. A. i in., The preregistration revolution: https://www.pnas.org/doi/10.1073/pnas.1708274114
Center for Open Science, Registered Reports: https://www.cos.io/initiatives/registered-reports
Silberzahn, R. i in., Many Analysts, One Data Set: https://research.hhs.se/esploro/outputs/journalArticle/Many-Analysts-One-Data-Set-Making/991001489599406056
Association for Psychological Science, Understanding Confidence Intervals and Effect Size Estimation: https://www.psychologicalscience.org/observer/understanding-confidence-intervals-cis-and-effect-size-estimation

Ocena źródeł A/B/C i ryzyko błędu

A: oświadczenie ASA, artykuły naukowe w Science, PNAS i Psychological Science, materiały Center for Open Science, OSF.
B: opracowanie Association for Psychological Science oraz dobre teksty metodologiczne tłumaczące przedziały ufności i wielkość efektu.
C: brak kluczowych źródeł kategorii C w rdzeniu tekstu.
Ryzyko błędu: niskie. Tekst opiera się na dobrze znanych publikacjach metodologicznych i debacie szeroko udokumentowanej w psychologii oraz statystyce.
Co by to rozstrzygnęło: większa liczba niezależnych replikacji dla konkretnych twierdzeń psychologicznych, jawne dane i kody analiz, prerejestrowane badania z odpowiednią mocą statystyczną oraz metaanalizy pokazujące stabilną wielkość efektu.

Powiązane wpisy