Repliche impure

La replica è la spina dorsale della vera scienza. Mentre le scienze dure come la fisica e la chimica conoscono da tempo il valore della replicazione e la praticano, gli psicologi hanno solo recentemente sollevato questo problema. Prima, i ricercatori hanno conosciuto con il "passaparola" i cui risultati erano riproducibili e di chi no. È quindi lodevole che questa importante questione venga alla ribalta.

Nei pochi anni trascorsi dal prendere seriamente la replica, ci sono stati molti progressi. Ad esempio, le prime repliche pubblicate (e per lo più fallite) erano studi singoli, mentre i recenti sforzi di collaborazione hanno riportato più studi sperimentali per renderli più rappresentativi perché un singolo esperimento di replica fallito può averlo fatto per caso ed è quindi vacuo.

Qualche giorno fa è stato pubblicato un nuovo errore di replica, oltre a una risposta del primo autore dello studio originale, che solleva domande sul valore degli studi di replica (si veda la relazione e la risposta di Strack qui).

The Pencil Study e la sua replica

Flickr/CC 2.0
Fonte: Flickr / CC 2.0

Tuttavia, i problemi rimanenti che hanno a che fare con una mancanza di sofisticazione teorica possono essere esemplificati dalla replica di un esperimento sul feedback corporeo dell'espressione emotiva su giudizi affettivi.

In questo esperimento di Fritz Strack, Leonard Martin e Sabine Stepper, i partecipanti devono tenere una penna in una delle due posizioni, sia tra i denti (lato sinistro dell'immagine) che tra le labbra (a destra).

Mentre si tiene la penna tra i denti attiva i muscoli relativi agli affetti positivi, tenendo la penna tra le labbra si attivano i muscoli relativi ai sentimenti negativi. Il vantaggio di questa procedura è che i partecipanti non si accorgono che stanno sorridendo o facendo il broncio. I partecipanti dovevano valutare la stranezza dei cartoni di Gary Larson The Far Side .

Strack e colleghi hanno scoperto che i partecipanti che tenevano la matita tra i denti e quindi sorridevano giudicavano i cartoni animati più divertenti dei partecipanti che tenevano la matita tra le labbra, cosa che li faceva prendere in giro. Questa scoperta fornisce supporto ad una teoria dell'emozione del feedback facciale in quanto mostra che simulare un'espressione emotiva nel tuo viso ti fa sentire l'emozione. Lo studio è diventato un classico delle citazioni ed è stato pubblicato alcuni anni fa sulla prima pagina di Science .

Un gruppo di ricercatori ha intrapreso un massiccio tentativo di replica. Diciassette laboratori diversi hanno ripetuto questo esperimento e hanno osservato se potevano riprodurre l'effetto. Il verdetto era chiaro: non potevano. Nessuno degli esperimenti ha raggiunto la dimensione dell'effetto ottenuta dallo studio originale e, in media, l'effetto era vicino allo zero. Su Twitter, un ricercatore ha osservato, "Un'altra classica psicologia sociale che trova mordere la polvere".

La polemica su Twitter mi ha spinto a rispondere, e ne è scaturita una discussione che è stata la migliore possibile quando il tuo argomento non può superare i 140 caratteri. Poiché ho bisogno di più spazio per argomentare, ho deciso di scrivere questo post sul blog, non ultimo perché questo e altri studi sotto esame sono rilevanti per il sentimento critico.

Mi concentrerò sull'impatto teorico dei fallimenti di replica e su come affrontare le possibili impurità che minacciano la validità di uno studio di replica.

La domanda è: questo classico effetto "morde la polvere"? Nella sua risposta, Fritz Strack ha elencato diversi punti che rendono dubbia la replica.

Ad esempio, 14 di 17 studi sono stati condotti con studenti universitari, anche se lo studio è ampiamente citato in libri di testo proprio per questo pubblico. In contrasto con gli studenti che hanno partecipato allo studio di Strack per il quale era impossibile conoscere il risultato, gli studenti potrebbero aver letto dello studio, anche se probabilmente non lo hanno ricordato durante la partecipazione all'esperimento.

In effetti, i 14 studi condotti con gli studenti hanno mostrato un effetto nullo mentre i tre studi con altri partecipanti hanno mostrato un effetto complessivo nella direzione dello studio originale. Inoltre, una telecamera è stata diretta ai partecipanti per monitorare la loro espressione facciale. Punteggi di ricerca hanno dimostrato che puntare una telecamera sulle persone o guardarle con altri mezzi cambia il loro modo di pensare e di comportarsi; perché non i loro giudizi sulla funnance dei cartoni animati? Poiché l'effetto matita è sottile, piccole "impurità" nell'esperimento potrebbero oscurare l'effetto.

Quando si tratta di impurità, penso che gli psicologi potrebbero beneficiare del pensiero scientifico in chimica. Il grande problema che i chimici hanno è la purezza delle loro sostanze. Anche piccole impurità potrebbero impedire reazioni o modificare i risultati. La cosa principale che spesso i chimici devono fare è purificare le loro sostanze per garantire il successo dei loro esperimenti.

Il lavoro dei ricercatori psicologici è ancora più difficile perché non conducono la loro ricerca in sistemi chiusi con condizioni standard chiaramente definite. I sistemi in psicologia sono aperti e i risultati sperimentali sono suscettibili a sottili effetti di contesto.

Ciò significa che minuscole modifiche potrebbero cambiare un effetto, un fatto riconosciuto dai ricercatori di replica. Ad esempio, i partecipanti di una cultura diversa possono interpretare le istruzioni in modo diverso e l'esperimento può quindi produrre risultati diversi.

Non c'è da stupirsi che i fallimenti della replicazione nel grande progetto Open Science Framework fossero legati a quanto un argomento dipendesse dalla cultura. Più un effetto specifico della cultura era, peggio ancora le sue possibilità di essere replicate nello studio scientifico aperto (vedi Van Bavela et al, 2016).

Lo studio delle matite è parte di un programma di ricerca degenerativa?

Torniamo allo studio a matita. Strack ha fornito alcuni argomenti che sollevano qualche ragionevole dubbio sulla "purezza" degli studi di replica. Alcuni psicologi hanno affermato che si tratta di "SNARKing – speciosi nidi dopo che i risultati sono noti". Un altro commentatore intendeva: "Lo chiamiamo 'criticando dopo che i risultati sono noti." Lakatos lo definisce una linea di ricerca degenerativa.

Questi commentatori sottolineano il fatto che se si tenta di replicare un effetto e non lo si capisce, fornire alcune spiegazioni post hoc non aiuta. Innanzitutto, puoi sempre trovare alcune scuse perché un esperimento non ha funzionato. In secondo luogo, e ancora più importante, un effetto non sembra robusto quando cambiamenti sottili rimuovono l'effetto. I commentatori su Twitter hanno citato Lakatos che una tale linea di ricerca è in ritiro, è degenerativa.

L'uso della linea di ricerca degenerativa di Lakatos è fuorviante nel caso di fallimenti di replica. Lakatos non pensava ai fallimenti di replica ma a nuovi esperimenti che contraddicevano una teoria. Trovare spiegazioni per difendere la tua teoria – spesso sotto forma di supposizioni ausiliarie che rendono la tua teoria più complicata – è improduttiva e indica che il tuo programma di ricerca è in declino.

Eppure questo non è quello che è successo alla teoria del feedback facciale supportata dall'esperimento di Strack. Nessuno ha presentato dati che contraddicessero la teoria del feedback facciale. Gli autori dello studio di replica semplicemente non potevano riprodurre i risultati di uno degli studi in vetrina che sostenevano la teoria. Tuttavia, ci sono altri esperimenti che supportano la teoria del feedback facciale. L'incapacità di replicare uno studio, anche se è il più noto, non cambia molto quando si tratta della teoria. Nessun segno di un programma di ricerca degenerativa.

Perché il Replication Failure non minacci la teoria del feedback facciale

C'è un'altra distinzione che gli psicologi devono prestare attenzione quando parlano dei fallimenti di replica. Supponiamo che stiate studiando un intervento per rendere felici le persone attraverso il feedback facciale, ad esempio tenendo una penna tra i denti. Pubblichi uno studio e raccomandi questo intervento per l'uso a scuola, al lavoro ea casa. Tu fai la tesi universale che questo intervento sarà efficace nella maggior parte delle circostanze.

Vieni con 17 replicatori che non riescono a riprodurre i risultati. Come hai fatto un argomento universale, l'incapacità di replicare è un colpo mortale perché non c'è un tale effetto globale e robusto. Anche replicare l'effetto con una dimensione dell'effetto più piccola danneggerebbe la rilevanza dello studio originale se rendesse l'affermazione come un effetto universale.

Tuttavia, questo non era quello che Strack e i suoi colleghi avevano in mente. Non hanno mai preteso l'universalità dell'effetto, ma hanno fatto l'argomento esistenziale che ci sono esempi dell'esperienza degli stati affettivi attraverso il feedback facciale.

Vieni con 17 replicatori che non riescono a riprodurre i risultati. Dato che Strack e colleghi hanno avanzato un argomento esistenziale, un'incapacità di replicare minaccia l'affidabilità dello studio e la validità della teoria (se questo fosse l'unico studio a sostenerlo) solo quando non è stata lasciata alcuna spiegazione perché lo studio di replica abbia fallito.

Questo è simile ai chimici che cercano prima le impurità nel loro esperimento prima di dubitare che possano replicare un risultato. Una simile discussione non ha nulla a che fare con programmi di ricerca spericolata e degenerativa, ma con un discorso scientifico per trovare il metodo che funziona, se ce n'è uno.

Come abbiamo visto, ci sono due spiegazioni che sollevano dubbi sulla validità dello studio di replica, del corpo studentesco e della telecamera di fronte al viso dei partecipanti.

L'errore di replica è informativo perché mostra che questo è un effetto sottile – rendendo esplicito un fatto che gli addetti ai lavori sapevano fin dall'inizio, e questa è una buona cosa.

Tuttavia, l'incapacità di replicare questo esperimento non minaccia la teoria, per le ragioni sopra delineate. È necessario tenere conto del fatto che è probabilmente molto più facile ottenere un errore di replica rispetto a un effetto originale stabile che viene spesso ottenuto dopo molti test pilota e messa a punto.

Infine, trovare un effetto è una buona notizia per un argomento esistenziale, anche se la dimensione dell'effetto è molto più debole rispetto allo studio originale. Dal punto di vista di una teoria, le dimensioni dell'effetto sono solo informative quando gli scienziati fanno una discussione universale o quando vogliono derivare implicazioni pratiche da uno studio.

Finché l'argomento riguarda la semplice esistenza di un meccanismo o di un effetto, le dimensioni dell'effetto non contano.

Conclusione

L'insuccesso della replica minaccia solo una teoria (1) quando questo è l'unico studio che supporta la teoria; (2) se fa un reclamo universale. Le repliche correnti spesso scelgono uno studio su molti che supportano una teoria e selezionano studi che supportano un argomento esistenziale.

Molti errori di replica sono solo questo: errori di replica dei singoli studi. Non hanno un grande impatto sulla teoria e la discussione sulle impurità che minacciavano la validità di uno studio di replica non dovrebbe essere presa come scusa debole, ma come punto di partenza per tentativi di replica nuovi e migliori.

Il messaggio da portare a casa è che gli psicologi devono distinguere tra la replica di studi che pretendono di mostrare un effetto universale con implicazioni pratiche e studi che fanno l'argomento esistenziale su un certo meccanismo.

La maggior parte degli studi sperimentali su affetto, innesco o incarnazione che non sono stati replicati sono di quest'ultimo tipo. Poiché la teoria è per lo più supportata da altre evidenze, l'incapacità di riprodurre i loro risultati non ha molta rilevanza per la teoria che questi studi avrebbero dovuto supportare.

Il post sul blog ha suscitato molto dibattito sui social media. Vedi la discussione su Facebook qui (Psychological Methods Discussion Group) e qui (PsychMAP).

Per la constatazione che la riproducibilità è sensibile al contesto:

Van Bavela, JJ, Mende-Siedleckia, P, J. Bradya, W. e Reinero, DA (2016). Sensibilità contestuale nella riproducibilità scientifica. PNAS, 113, 6454-6459.

L'ipotesi del feedback facciale è descritta nel Capitolo 5 di:

Reber, R. (2016). Sentimento critico Come usare i sentimenti strategicamente. Cambridge: Cambridge University Press.

Ulteriori riferimenti possono essere trovati nei collegamenti o riferimenti sopra.

Credito immagine: figura disponibile su http://tinyurl.com/zm7p9l7 sotto licenza CC
https://creativecommons.org/licenses/by/2.0/.