Problema di replica della ricerca di psicologia

Ormai, molti di voi hanno sicuramente sentito parlare del progetto di riproducibilità, in cui 100 risultati psicologici sono stati sottoposti a tentativi di replica. Nel caso in cui non si abbia familiarità con esso, i risultati di questo progetto sono stati meno di un netto sostegno alla ricerca sul campo: delle 89 repliche previste, solo 37 sono state ottenute e la dimensione media degli effetti è diminuita drasticamente; in particolare la ricerca sulla psicologia sociale sembrava particolarmente negativa in questo senso. Ciò suggerisce che, in molti casi, si sarebbe ben servito prendendo molti risultati psicologici con un paio di granelli di sale.

Naturalmente, questo porta molte persone a chiedersi se c'è un modo in cui potrebbero essere più sicuri che un effetto sia reale , per così dire. Un possibile mezzo attraverso il quale la vostra fiducia potrebbe essere rafforzata è se la ricerca in questione contenga o meno repliche concettuali.

Ciò a cui questo si riferisce sono casi in cui gli autori di un manoscritto riportano i risultati di diversi studi diversi che pretendono di misurare la stessa cosa sottostante con vari metodi; cioè, stanno studiando l'argomento A con i metodi X, Y e Z. Se tutti questi risultati risultano positivi, si dovrebbe essere più sicuri che un effetto sia reale. In effetti, ho avuto un documento respinto più di una volta per contenere solo un singolo esperimento. Le riviste spesso vogliono vedere diversi studi in un documento, e questo è probabilmente parte del motivo per cui: un singolo esperimento è sicuramente meno affidabile di altri.

Flickr/Michael Caroe Andersen
Non va da nessuna parte, ma almeno lo fa in modo affidabile
Fonte: Flickr / Michael Caroe Andersen

Secondo lo sconosciuto account moderatore del fallimento della replica, i risultati della ricerca psicologica sono, in sostanza, spesso volubili. Alcuni risultati potrebbero dipendere dall'ora del giorno in cui sono state effettuate le misurazioni, dal paese del campione, da alcuni dettagli particolari del materiale di stimolo, dal fatto che lo sperimentatore sia un uomo o una donna; lo chiami. In altre parole, è possibile che questi effetti pubblicati siano reali, ma si verificano solo in alcuni contesti piuttosto specifici di cui non siamo adeguatamente consapevoli; vale a dire che sono moderati da variabili sconosciute. Se questo è il caso, è improbabile che alcuni sforzi di replica avranno successo, poiché è abbastanza improbabile che vengano replicati anche tutti i moderatori unici, sconosciuti e non apprezzati. È qui che entrano in gioco le repliche concettuali: se un documento contiene due, tre o più tentativi diversi di studiare lo stesso argomento, dovremmo aspettarci che l'effetto che ne derivano abbia più probabilità di estendersi oltre un insieme molto limitato di contesti e dovrebbe replicarsi più facilmente.

Questa è un'ipotesi lusinghiera per spiegare questi fallimenti di replica; non c'è abbastanza replicazione in fase di pubblicazione preliminare, quindi i risultati limitati vengono pubblicati come se fossero più generalizzabili. L'ipotesi meno lusinghiera è che molti ricercatori, per mancanza di una parola migliore, imbrogliano impiegando tattiche di ricerca disoneste. Queste tattiche possono includere l'ipotesi dopo che i dati sono stati raccolti, raccogliendo solo i partecipanti fino a quando i dati dicono ciò che i ricercatori vogliono e poi si fermano, suddividendo i campioni in gruppi diversi fino a quando le differenze non vengono scoperte e così via.

C'è anche il famigerato numero di riviste che pubblicano solo risultati positivi piuttosto che negativi (creando un grande incentivo a imbrogliare, poiché la punizione per farlo è quasi inesistente, purché non si stiano inventando i dati). È per questi motivi che richiedere la preregistrazione della ricerca – affermando esplicitamente ciò che si guarderà prima del tempo – abbassa marcatamente i risultati positivi. Se la ricerca non riesce a replicarsi perché il sistema viene ingannato, più repliche interne (quelle degli stessi autori) non sono di grande aiuto quando si tratta di prevedere repliche esterne (quelle condotte da soggetti esterni). Le repliche interne forniscono ai ricercatori la possibilità di segnalare più tentativi di imbroglio.

Queste due ipotesi fanno previsioni diverse riguardo ai dati del suddetto progetto di riproducibilità: in particolare, la ricerca contenente repliche interne dovrebbe essere più probabile che si replichi con successo se l'ipotesi del moderatore sconosciuto è accurata. Certamente sarebbe uno strano stato di cose da una prospettiva "questa scoperta è vera" se più repliche concettuali non avrebbero più probabilità di essere riproducibili dei documenti a studio singolo. Sarebbe come dire che gli effetti che sono stati replicati non hanno più probabilità di replicarsi successivamente degli effetti che non hanno. Al contrario, l'ipotesi di frode (o, più educatamente, ipotesi di pratiche di ricerca discutibili) non ha alcun problema con l'idea che le repliche interne potrebbero dimostrarsi come replicabili esternamente come documenti di studio singolo; imbrogliare una scoperta tre volte non significa che sia più probabile che sia vero che ingannarlo una volta.

Flickr/vozach1234
Non è barare; è solo una "discutibile strategia di test"
Fonte: Flickr / vozach1234

Questo mi porta ad un nuovo lavoro di Kunert (2016) che ha riesaminato alcuni dei dati del progetto di riproducibilità. Dei 100 documenti originali, 44 contenevano repliche interne: 20 contenevano solo una replica, 10 replicate due volte, 9 replicate 3 volte e 5 ne contenevano più di tre. Questi sono stati confrontati con i 56 documenti che non contenevano repliche interne per vedere quali sarebbero successivamente replicati meglio (come misurato raggiungendo significatività statistica). Come si è scoperto, i documenti con repliche interne si replicavano esternamente per circa il 30% del tempo, mentre i documenti senza repliche interne si replicavano esternamente per circa il 40% delle volte. Non solo i documenti internamente replicati non erano sostanzialmente migliori, ma in realtà erano leggermente peggiori a tale riguardo. Una conclusione simile è stata raggiunta per quanto riguarda la dimensione media dell'effetto: i documenti con repliche interne non avevano più probabilità di contenere successivamente una dimensione dell'effetto più grande, rispetto ai documenti senza tali repliche.

È possibile, naturalmente, che i documenti contenenti repliche interne siano diversi dai documenti che non contengono tali repliche. Ciò significa che potrebbe essere possibile che le repliche interne siano effettivamente una buona cosa, ma i loro effetti positivi sono superati da altri fattori negativi. Ad esempio, qualcuno che propone un'ipotesi particolarmente innovativa potrebbe essere incline a includere più repliche interne nella loro carta rispetto a qualcuno che ne studia uno stabilito; quest'ultimo ricercatore non ha bisogno di più repliche nel suo articolo per pubblicarlo perché l'effetto è già stato replicato in altri lavori.

Per esaminare questo punto, Kunert (2016) ha utilizzato i 7 predittori di riproducibilità identificati dalla Open Science Collaboration – campo di studio, tipo di effetto, valore P originale, dimensione dell'effetto originale, potenza di replicazione, sorprendenza dell'effetto originale e la sfida di condurre la replicazione – per valutare se il lavoro replicato internamente differiva in alcun modo notevole dal campione non internamente replicato. A quanto pare, i due campioni erano abbastanza simili in generale su tutti i fattori tranne uno: campo di studio. Gli effetti replicati internamente tendevano a venire dalla psicologia sociale più frequentemente (70%) rispetto alla psicologia cognitiva (54%). Come ho già detto, i documenti di psicologia sociale tendono a replicarsi meno spesso. Tuttavia, l'effetto di moderatore sconosciuto non è stato particolarmente ben supportato per entrambi i campi, quando esaminati singolarmente.

In sintesi, quindi, i documenti contenenti repliche interne non erano più adatti a fare bene quando si trattava di repliche esterne che, a mio avviso, suggeriscono che qualcosa sta andando molto male nel processo da qualche parte. Forse i ricercatori stanno facendo uso della loro libertà di analizzare e raccogliere dati come ritengono opportuno per fornire le conclusioni che vogliono vedere; forse le riviste pubblicano preferenzialmente i risultati di persone che hanno avuto fortuna, rispetto a coloro che hanno capito bene. Queste possibilità, ovviamente, non si escludono a vicenda. Ora suppongo che si possa continuare a formulare una tesi che assomigli a: "i documenti che contengono repliche concettuali hanno più probabilità di fare qualcos'altro di diverso, rispetto ai documenti con un solo studio", il che potrebbe potenzialmente spiegare la mancanza di forza fornita da repliche interne e qualunque cosa "qualcosa" potrebbe non essere direttamente sfruttata dalle variabili considerate nel documento corrente. In sostanza, una tale argomentazione suggerirebbe che ci siano moderatori sconosciuti fino in fondo.

Flickr/ynnil
"… e quella tartaruga si trova sul guscio di una tartaruga ancora più grande …"
Fonte: Flickr / ynnil

Anche se è abbastanza vero che una tale spiegazione non è esclusa dai risultati attuali, non dovrebbe essere presa come una sorta di posizione di default sul motivo per cui questa ricerca non riesce a replicare. La spiegazione dei "ricercatori imbroglia" mi sembra un po 'più plausibile in questa fase, visto che non ci sono molte altre spiegazioni ovvie sul perché i documenti apparentemente replicati non siano più replicabili. Come afferma Kunert (2016):

Questo rapporto suggerisce che, senza diffusi cambiamenti nella scienza psicologica, diventerà difficile distinguerlo dalle osservazioni informali, dagli aneddoti e dal lavoro di supposizione.

Questo ci porta alla questione di cosa potrebbe essere fatto riguardo al problema. Ci sono modi procedurali per tentare di affrontare il problema – come la raccomandazione di Kunert (2016) per far sì che le riviste pubblichino articoli indipendenti dai loro risultati – ma il mio obiettivo è, e continuo ad esserlo, sugli aspetti teorici della pubblicazione. Troppi documenti in psicologia vengono pubblicati senza alcuna necessità evidente per i ricercatori di spiegare le loro scoperte in alcun senso significativo; invece, di solito si limitano a ridimensionare e etichettare le loro scoperte, o pongono una qualche funzione biologicamente non plausibile per ciò che hanno trovato (come "X fa sentire le persone buone" o "compiti di autocontrollo sono fognature metaboliche pesanti"). Senza l'applicazione seria e coerente della teoria evolutiva alla ricerca psicologica, gli effetti non plausibili continueranno a essere pubblicati e in seguito non riescono a replicarsi perché non c'è altro modo per capire se una conclusione ha senso. Al contrario, trovo plausibile che effetti improbabili possano essere più chiaramente individuati – dai revisori, dai lettori e dai replicatori – se sono tutti espressi nello stesso quadro teorico; ancora meglio, i problemi nel design possono essere più facilmente identificati e rettificati considerando la logica funzionale sottostante, portando a una ricerca futura produttiva.

Riferimenti: Kunert, R. (2016). Le repliche concettuali interne non aumentano il successo della replica indipendente. Bollettino psicologico , DOI 10.3758 / s13423-016-1030-9