Conta The Hits; Non mi manca

In vari punti della nostra vita, abbiamo tutti letto o ci hanno raccontato aneddoti su come qualcuno ha trasformato un po 'della loro vita in giro. Alcuni di questi (o almeno variazioni di essi) sembrano familiari: "Ho tagliato il pane dalla mia dieta e all'improvviso mi sono sentito molto meglio"; "Amy ha fatto una fortuna lavorando da casa vendendo pillole dimagranti online"; "Dopo che i medici non sono riusciti a capire cosa c'era di sbagliato in me, ho iniziato a bere questo tè e la mia infezione si è improvvisamente chiarita". Il punto centrale di queste storie è cercare di tracciare un collegamento casuale, in questi casi: (1) mangiare pane ti fa sentire male, (2) vendere pillole dimagranti è un buon modo per fare soldi, e (3) il tè è utile per combattere le infezioni. Alcune o tutte queste affermazioni potrebbero essere vere, ma il vero problema di queste storie è la scarsità di dati su cui si basano. Se vuoi essere più sicuro di queste affermazioni, vuoi maggiori informazioni. Sicuro; avresti potuto sentirti meglio dopo aver bevuto quel tè, ma per quanto riguarda le altre 10 persone che hanno bevuto tè simile e non hanno visto risultati? Che ne dici di tutte le altre persone che vendono pillole per la dieta che si trovavano nel buco finanziario fin dal primo giorno e non ci hanno mai tirato fuori perché è in realtà una truffa? Se vuoi avvicinarti alla comprensione del valore di verità di tali affermazioni, devi considerare i dati nel loro complesso; entrambe le storie di successo e storie di insuccessi. Tuttavia, le storie di qualcuno che non si arricchisce vendendo pillole per la dieta non sono altrettanto commoventi, e quindi non vedono la luce del giorno; almeno non inizialmente Questa sfaccettatura di aneddoti è stata fatta luce da The Onion diversi anni fa (e Clickhole ne ha fatto di recente).

Flickr/Lloyd Morgan
"All'inizio ha fallito, ma con un pensiero positivo ha continuato a fallire ancora e ancora"
Fonte: Flickr / Lloyd Morgan

Questi aneddoti spesso cercano di gettare i riflettori sui casi di successo (colpi) ignorando quelli che non hanno successo (mancano), dando come risultato un'immagine distorta di come funzioneranno le cose. Non ci avvicinano molto alla verità. La maggior parte delle persone che creano e consumano la ricerca psicologica vorrebbero pensare che gli psicologi vadano oltre questo tipo di aneddoti e generino utili intuizioni su come funziona la mente, ma ultimamente sono emerse molte preoccupazioni su quanto in media andassero oltre, in gran parte a causa dei risultati del progetto di riproducibilità. Sono state sollevate numerose questioni sul modo in cui la ricerca psicologica è condotta: o sotto forma di difesa di particolari posizioni politiche e sociali (che distorcono i disegni sperimentali e le interpretazioni statistiche) o i modi selettivi in ​​cui i dati vengono manipolati o riportati per attirare l'attenzione dati di successo senza riconoscere le previsioni fallite. Il risultato è stato un discreto numero di falsi positivi e di quelli reali esagerati raccolti in letteratura.

Mentre queste preoccupazioni sono giustificate, è difficile quantificare l'entità dei problemi. Dopotutto, pochissimi ricercatori stanno per uscire e dire che hanno manipolato i loro esperimenti o dati per trovare i risultati che volevano perché (a) avrebbe solo danneggiato le loro carriere e (b) in alcuni casi, non sono nemmeno consapevoli che lo stanno facendo, o che quello che stanno facendo è sbagliato. Inoltre, poiché la maggior parte della ricerca psicologica non è preregistrata e le scoperte nulle non sono generalmente pubblicate, capire cosa i ricercatori speravano di trovare (ma non ha) diventa un'impresa difficile solo leggendo la letteratura. Per fortuna, un nuovo documento di Franco et al (2016) riporta alcuni dati sulla questione di quanta sottovalutazione sta accadendo. Mentre questi dati non saranno la parola finale sull'argomento con qualsiasi mezzo (in gran parte a causa della loro piccola dimensione del campione), forniscono alcuni dei primi passi nella giusta direzione.

Franco et al (2016) riferiscono su un gruppo di esperimenti psicologici i cui questionari e dati sono stati resi pubblici. Nello specifico, provengono dagli esperimenti di condivisione del tempo per le scienze sociali (TESS), un programma NSF in cui gli esperimenti online sono incorporati in indagini sulla popolazione rappresentative a livello nazionale. I ricercatori che fanno uso di TESS affrontano rigorosi limiti sul numero di domande che possono porre, ci viene detto, il che significa che dovremmo aspettarci che limiterebbero le loro domande a quelle più teoricamente significative. In altre parole, possiamo essere abbastanza fiduciosi sul fatto che i ricercatori avessero alcune previsioni specifiche che speravano di testare per ogni condizione sperimentale e misura di esito, e che queste previsioni erano state fatte prima di ottenere effettivamente i dati. Franco et al (2016) sono stati quindi in grado di seguire gli studi TESS fino alle eventuali versioni pubblicate dei documenti per vedere quali manipolazioni e risultati sperimentali erano e non sono stati riportati. Ciò ha fornito agli autori una serie di 32 esperimenti di psicologia semi-pre-registrati da esaminare per segnalare i pregiudizi.

Flickr/Pat Kight
Un piccolo campione che generalizzerò incautamente a tutta la ricerca psicologica
Fonte: Flickr / Pat Kight

Il primo passo è stato quello di confrontare il numero di condizioni sperimentali e variabili di risultato che erano presenti negli studi TESS al numero che alla fine è apparso nei manoscritti pubblicati (cioè gli autori riportano cosa hanno fatto e cosa hanno misurato?). Complessivamente, il 41% degli studi TESS non ha segnalato almeno una delle loro condizioni sperimentali; mentre c'erano negli studi una media di 2,5 condizioni sperimentali, i documenti pubblicati menzionavano solo una media di 1,8. Inoltre, il 72% dei documenti non ha riportato tutte le loro variabili di esito; mentre nei questionari c'erano una media di 15,4 variabili di esito, i rapporti pubblicati menzionavano solo 10,4 Presi insieme, solo circa 1 su 4 degli esperimenti riportava tutto ciò che facevano e ciò che misuravano. Non sorprende che questo modello si sia esteso anche alla dimensione degli effetti riportati. In termini di significatività statistica, il valore p riportato mediano era significativo (0,02), mentre il valore p medio non dichiarato non era (.32); due terzi dei test riportati erano significativi, mentre solo un quarto dei test non dichiarati erano. Infine, le dimensioni degli effetti pubblicati erano circa il doppio di quelle non dichiarate.

Presi insieme, il modello che è emerso è che la ricerca psicologica tende a sottostimare le manipolazioni sperimentali fallite, le misure che non sono state messe in risalto e gli effetti minori. Questo non dovrebbe sorprendere quasi nessuno che abbia dedicato molto tempo ai ricercatori di psicologia o ai ricercatori stessi che hanno tentato di pubblicare scoperte nulle (o, in effetti, hanno provato a pubblicare quasi tutto). I dati sono spesso disordinati e non collaborativi, e le persone sono meno interessate a leggere le cose che non hanno funzionato (a meno che non siano collocate nei contesti appropriati, dove i fallimenti nel trovare gli effetti possono effettivamente essere considerati significativi, come quando tu? cercando di fornire prove contro una teoria). Tuttavia, il risultato di tale segnalazione selettiva su ciò che sembra essere una scala abbastanza grande è che l'attendibilità complessiva della ricerca psicologica segnalata scende sempre più, un falso positivo alla volta.

Quindi cosa si può fare su questo problema? Un suggerimento che è spesso sballottato è la prospettiva che i ricercatori debbano registrare il loro lavoro in anticipo, chiarendo quali analisi condurranno e quali previsioni hanno fatto. Questo era (il genere) il caso nei dati attuali, e Franco et al (2016) approvano questa opzione. Permette alle persone di valutare la ricerca come più di un semplice affidamento sui suoi account pubblicati. Anche se questo è un buon suggerimento, non fa altro che migliorare lo stato della letteratura. In particolare, in realtà non aiuta il problema delle riviste che non pubblicano risultati nulli in primo luogo, né impedisce necessariamente ai ricercatori di fare analisi post-hoc dei loro dati e di rivelare ulteriori falsi positivi. Quello che è forse un modo più ambizioso di alleviare questi problemi che viene in mente sarebbe quello di cambiare collettivamente il modo in cui le riviste accettano i documenti per la pubblicazione. In questo sistema alternativo, i ricercatori dovrebbero presentare una bozza del loro articolo a una rivista prima che la ricerca venga condotta, chiarendo (a) quali saranno le loro manipolazioni, (b) quali saranno le loro misure di esito e (c) quali analisi statistiche loro si impegneranno. Quindi, e questo è importante, prima che il ricercatore o le riviste sappiano quali saranno i risultati , verrà presa la decisione di pubblicare il documento o meno. Ciò consentirebbe ai risultati nulli di farsi strada nelle riviste mainstream consentendo al tempo stesso ai ricercatori di creare il proprio curriculum se le cose non andassero bene. In sostanza, rimuove alcuni degli incentivi per i ricercatori a imbrogliare statisticamente. La valutazione delle riviste sarà quindi basata non sull'esito di risultati interessanti, ma piuttosto sulla questione se sia stata posta una domanda di ricerca sufficientemente importante.

Flickr/Scott
Il che è positivo, considerando quanto spesso risultati reali e forti sembrano presentarsi
Fonte: Flickr / Scott

Ci sono alcuni aspetti negativi di questo suggerimento, tuttavia. Per uno, il piano richiederebbe un certo tempo per mettere in atto anche se tutti fossero a bordo. Le riviste avrebbero dovuto accettare un documento per la pubblicazione settimane o mesi prima che il documento stesso fosse effettivamente completato. Ciò comporterebbe alcune complicazioni aggiuntive per i giornali in quanto i ricercatori a volte non riescono a completare la ricerca affatto, in modo tempestivo, o non consegnano ancora documenti parziali non meritevoli di stampa, lasciando possibili lacune nella pubblicazione. Inoltre, a volte significherà che un numero di un diario esce senza contenere importanti progressi nel campo della ricerca psicologica (nessuno è riuscito a trovare qualcosa questa volta), il che potrebbe influire negativamente sul fattore di impatto delle riviste in questione. In effetti, quest'ultima parte è probabilmente il più grande impedimento di apportare importanti revisioni al sistema di pubblicazione attualmente in atto: la maggior parte della ricerca psicologica probabilmente non funzionerà molto bene, e questo probabilmente significherà meno persone alla fine interessate a leggere e citare esso. Mentre è possibile, suppongo, che le scoperte nulle siano effettivamente citate a tassi simili a quelli positivi, che rimane da vedere, e in assenza di tali informazioni non prevedo che i giornali siano terribilmente interessati a cambiare le loro politiche e ad adottare quel rischio.

Riferimenti: Franco, A., Malhotra, N., e Simonovits, G. (2016). Sottoprotezione in esperimenti di psicologia: prove da un registro degli studi. Scienze sociali psicologiche e di personalità, 7 , 8-12.