Psychologia miała badać ludzkie złudzenia, ale w pewnym momencie musiała zbadać także własne. Nie chodziło o to, czy człowiek ma emocje, pamięć, uprzedzenia albo mechanizmy decyzyjne. Chodziło o coś bardziej technicznego i znacznie bardziej niewygodnego: czy konkretne, opublikowane efekty psychologiczne wracają, gdy inne laboratorium próbuje powtórzyć badanie.
Kryzys replikacji to nie jest proste hasło „psychologia się myli”. To raczej moment, w którym nauka o człowieku odkryła, że jej system nagród bywa ustawiony pod zgrabną historię, nowość i statystyczną istotność, a nie zawsze pod cierpliwe sprawdzanie, czy wynik jest trwały. W praktyce oznacza to, że pojedyncze badanie, nawet opublikowane w dobrym czasopiśmie, nie powinno być traktowane jak ostateczny opis ludzkiej natury.
Najpierw rozróżnijmy dwa słowa
W debacie często mieszają się dwa pojęcia: reprodukowalność i replikowalność. Reprodukować wynik to zwykle sprawdzić, czy z tych samych danych i tego samego kodu da się uzyskać ten sam rezultat. Replikować wynik to zebrać nowe dane i zobaczyć, czy podobny efekt pojawia się ponownie w podobnym badaniu.
To rozróżnienie jest ważne, bo psychologia pracuje na ludziach, a ludzie nie są probówkami z identycznym odczynnikiem. Zmienia się kultura, język instrukcji, kontekst badania, motywacja uczestników, platforma online, rok, kraj i nawet to, czy uczestnik rozumie zadanie tak samo jak grupa z oryginalnego eksperymentu. Dlatego nieudana replikacja nie zawsze oznacza, że oryginalny wynik był „fałszywy”. Może oznaczać, że efekt jest słabszy, zależny od warunków albo wcześniej został przedstawiony zbyt pewnie.
Warto zapisać: jedno badanie mówi „co wyszło w tych warunkach”. Dopiero wiele badań, najlepiej prerejestrowanych, jawnych i prowadzonych przez różne zespoły, zaczyna mówić „co prawdopodobnie jest stabilne”.
Moment, w którym pękła elegancka opowieść
Najgłośniejszym symbolem kryzysu stał się Reproducibility Project: Psychology. Zespół badaczy odtworzył 100 eksperymentalnych i korelacyjnych badań z trzech czasopism psychologicznych. W oryginalnych pracach 97 procent wyników było istotnych statystycznie. W replikacjach istotność statystyczną uzyskało 36 procent.
Ten wynik był dla opinii publicznej jak alarm. Dla metodologów był raczej potwierdzeniem, że nauka potrzebuje lepszej higieny pracy. W tym samym projekcie efekty replikacyjne były przeciętnie mniejsze od oryginalnych. To jest typowy sygnał, że w literaturze naukowej mogą kumulować się wyniki zawyżone: trochę przez przypadek, trochę przez selekcję, trochę przez presję publikacyjną.
Kolejne projekty nie dały jednej prostej liczby, bo replikowalność zależy od dziedziny, typu efektu i kryterium sukcesu. Many Labs 2 sprawdzał 28 klasycznych i współczesnych efektów w 125 próbach obejmujących 15 305 uczestników z 36 krajów i terytoriów. Według klasycznego progu istotności statystycznej 15 z 28 replikacji dało efekt w tym samym kierunku co oryginał. Jednocześnie 21 z 28 efektów było mniejszych niż w pierwotnych badaniach.
Inny projekt, dotyczący eksperymentów z nauk społecznych opublikowanych w „Nature” i „Science”, uzyskał replikację 13 z 21 badań według podstawowego kryterium. Nowsze badanie eksperymentów online, opublikowane w 2025 roku, raportowało ogólnie 54 procent udanych replikacji oraz średnią wielkość efektu na poziomie 45 procent oryginalnych wyników. Wspólny wzór jest powtarzalny: część efektów wraca, ale często słabiej niż obiecywał pierwszy artykuł.
Jak przypadek przebiera się za odkrycie
Najprostszy obraz jest taki: badacz chce sprawdzić, czy X wpływa na Y. Ale w realnym projekcie rzadko ma tylko jedną ścieżkę. Może wybrać różne zmienne zależne, różne kryteria wykluczenia uczestników, różne modele statystyczne, różny moment zatrzymania zbierania danych i różne sposoby opisania wyniku. Każda decyzja może być rozsądna osobno. Razem tworzą jednak ogród rozgałęziających się ścieżek.
Właśnie tu pojawia się p-hacking, czyli takie korzystanie z elastyczności analizy, które zwiększa szansę na wynik istotny statystycznie. Nie musi to wyglądać jak cyniczna manipulacja. Czasem wystarczy, że badacz sprawdza kilka wariantów, wybiera ten, który „najlepiej pokazuje efekt”, a później opisuje drogę tak, jakby była zaplanowana od początku.
Blisko tego leży HARKing, czyli stawianie hipotezy po zobaczeniu wyników i przedstawianie jej tak, jakby istniała przed badaniem. Dla czytelnika wygląda to jak elegancka teoria potwierdzona przez dane. W rzeczywistości może być teorią dopasowaną do danych po fakcie. To problem nie dlatego, że interpretowanie wyników jest zakazane. Problem zaczyna się wtedy, gdy eksploracja udaje potwierdzenie.
Trzecim elementem jest mała moc statystyczna. Jeśli badanie ma zbyt mało uczestników, może przegapić realny efekt. Ale jest też mniej intuicyjna konsekwencja: jeśli w małej próbie pojawi się wynik istotny, może on mocno zawyżać prawdziwą wielkość efektu. Dlatego późniejsza, większa replikacja często pokazuje coś mniej spektakularnego.
Najprościej mówiąc: im więcej ukrytych decyzji analitycznych i im mniejsza próba, tym łatwiej, by przypadek wyglądał jak psychologiczna prawda o człowieku.
Czy to znaczy, że psychologii nie można ufać?
Nie. To znaczy, że psychologii trzeba ufać inaczej. Nie jak zbiorowi pojedynczych, medialnych ciekawostek, ale jak procesowi odsiewania wyników. Kryzys replikacji jest bolesny, bo uderzył w prestiż wielu efektownych badań. Jednocześnie jest oznaką zdrowia nauki: dyscyplina publicznie sprawdziła własne fundamenty i zaczęła zmieniać praktyki.
Największa lekcja brzmi: psychologia nie jest najmocniejsza wtedy, gdy publikuje zaskakujący wynik z jednej próby. Jest najmocniejsza wtedy, gdy wynik przechodzi przez większe próby, jawne dane, prerejestrację, niezależne zespoły, metaanalizy i uczciwą dyskusję o granicach efektu. Szczególnie ostrożnie trzeba traktować twierdzenia o bardzo prostych sposobach „sterowania” ludzkim zachowaniem, jeśli opierają się na jednym małym eksperymencie.
W praktyce warto pytać o kilka rzeczy. Czy hipoteza i analiza były zapisane przed badaniem? Czy dane i materiały są dostępne? Czy próba była wystarczająco duża? Czy wynik powtórzył niezależny zespół? Czy efekt jest duży i praktycznie ważny, czy tylko formalnie istotny? Czy istnieje metaanaliza, a jeśli tak, czy uwzględnia publikacje z wynikami negatywnymi?
To nie jest tylko akademicka higiena. Badania psychologiczne wpływają na edukację, zarządzanie, terapię, marketing, politykę publiczną i samoocenę ludzi. Jeśli słaby efekt zostanie sprzedany jako prosta recepta na zachowanie człowieka, konsekwencje wychodzą poza laboratorium. To nie jest porada medyczna ani psychoterapeutyczna; w sprawach zdrowia psychicznego decyzje warto opierać na konsultacji ze specjalistą i standardach klinicznych, nie na pojedynczym popularnym badaniu.
Co zmieniło się po kryzysie
Najważniejsza zmiana dotyczy jawności. Prerejestracja polega na zapisaniu hipotez, planu badania i analizy przed zebraniem albo analizą danych. Dzięki temu czytelnik widzi, co było testem zaplanowanym, a co odkryciem po drodze. Otwarte dane i materiały ułatwiają sprawdzenie, czy wynik da się obliczyć ponownie i czy metoda była opisana wystarczająco dokładnie.
Drugą odpowiedzią są Registered Reports. W tym modelu czasopismo ocenia pytanie badawcze i metodę zanim znane są wyniki. Jeśli projekt jest dobry, artykuł może dostać warunkową akceptację niezależnie od tego, czy wynik będzie „pozytywny”. To zmienia bodźce: nagradza dobre pytanie i solidny plan, a nie wyłącznie efektowny rezultat.
Trzecią zmianą są wielolaboratoryjne replikacje. Zamiast jednego zespołu i jednej próby mamy wiele miejsc, wspólny protokół i lepszą ocenę tego, czy efekt jest stabilny, czy zależy od kontekstu. To szczególnie ważne w psychologii, bo człowiek jest jednocześnie obiektem biologicznym, społecznym i kulturowym.
Checklista zaufania
Jeśli widzisz nagłówek „naukowcy odkryli, że...”, nie musisz od razu go odrzucać. Wystarczy zadać kilka pytań, które odróżniają mocny sygnał od ładnej historii.
- Replikacja: czy efekt powtórzył niezależny zespół?
- Skala: czy badanie miało dużą i sensownie dobraną próbę?
- Plan: czy hipotezy i analizy były prerejestrowane?
- Jawność: czy dostępne są dane, materiały i kod?
- Efekt: czy wynik jest nie tylko istotny statystycznie, ale też praktycznie znaczący?
- Kontekst: czy efekt sprawdzono w różnych grupach, kulturach i warunkach?
- Bilans literatury: czy istnieją metaanalizy i czy obejmują także wyniki negatywne?
Najbardziej podejrzane są wyniki, które są jednocześnie bardzo efektowne, bardzo proste, oparte na małej próbie, medialnie atrakcyjne i niepowtórzone. Najbardziej wiarygodne są te, które wyglądają mniej widowiskowo, ale przetrwały kontakt z innymi zespołami i większą ilością danych.
Wnioski
Kryzys replikacji nie zniszczył psychologii. Raczej odebrał jej część złudzeń o samej sobie. Pokazał, że nauka o człowieku potrzebuje nie tylko ciekawych teorii, ale też procedur, które utrudniają przypadkowi udawanie odkrycia.
Najrozsądniejsze pytanie nie brzmi: „czy psychologia działa?”. Brzmi: „które wyniki psychologii są wystarczająco dobrze sprawdzone, żeby na nich polegać?”. I tu odpowiedź jest bardziej wymagająca, ale też zdrowsza: ufajmy nie pojedynczym badaniom, tylko liniom dowodów.
ŹRÓDŁA
- https://www.science.org/doi/10.1126/science.aac4716
- https://osf.io/ezcuj/
- https://doi.org/10.1177/2515245918810225
- https://www.nature.com/articles/s41562-018-0399-z
- https://www.nature.com/articles/s41562-024-02062-9
- https://doi.org/10.1177/0956797611417632
- https://doi.org/10.1207/s15327957pspr0203_4
- https://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.0020124
- https://www.ncbi.nlm.nih.gov/books/NBK547531/
- https://www.cos.io/initiatives/top-guidelines
- https://www.cos.io/initiatives/registered-reports
- https://www.psychologicalscience.org/publications/replication
Ocena źródeł A/B/C i ryzyko błędu
- A: publikacje naukowe, DOI, OSF/COS, National Academies, APS. To są źródła pierwotne, instytucjonalne albo metodologiczne.
- B: opracowania popularnonaukowe i medialne nie były podstawą głównych twierdzeń; mogą być użyte wyłącznie pomocniczo do kontekstu debaty publicznej.
- C: blogi, social media i streszczenia bez jasnej metodologii pominięto jako podstawę faktografii.
- Ryzyko błędu: średnie. Główne liczby są dobrze udokumentowane, ale „czy badanie się zreplikowało” zależy od przyjętego kryterium, jakości protokołu i tego, czy efekt miał prawo zależeć od kontekstu.
- Co by to rozstrzygnęło: większa liczba prerejestrowanych replikacji wielolaboratoryjnych, pełna dostępność danych i materiałów, metaanalizy uwzględniające wyniki negatywne oraz rutynowe Registered Reports dla badań wysokiego wpływu.