Lo Statsman suona sempre due volte

Dai un altro sguardo al modello dei risultati.

Matej Kastelic/Shutterstock

Fonte: Matej Kastelic / Shutterstock

Quelli di voi che prestano attenzione alla scena della scienza della psicologia sanno che un altro spettro si aggira per le strade, e il suo nome è Failure to Replicate . La maggior parte delle scoperte, dei cani da guardia e dei vigilantes ci dicono, sono false, in psicologia, in medicina, e il Signore sa dove altro. Le ragioni sono molte, ma vicino alla cima della lista troviamo shenanigans umano. Collettivamente, questi shenanigans sono noti con l’epiteto di p-hacking . La “p” sta per il valore p raccolto dai test di significatività statistica e “hacking” si riferisce a una serie di pratiche (auto) ingannevoli che deprimono questi valori p al di sotto della soglia 0,05 convenzionale, in modo che gli investigatori possano dichiarare un risultato significativo nel senso che l’ipotesi nulla di rumore rende improbabili i dati ottenuti.

Se consideriamo un singolo studio con un valore p di, diciamo, .03, non possiamo, da questo risultato da solo, concludere che sia stato violato. Avremmo bisogno di alcune informazioni su come i ricercatori hanno fatto i loro affari, o abbiamo bisogno dei risultati degli studi di replica per cercare modelli rivelatori. Se c’è un tentativo di replica e produce p = 0,07, sarebbe altrettanto sconsiderato dichiarare il vuoto originario come sarebbe dichiarare la vittoria sull’ipotesi nulla dopo il primo studio da solo. Sono necessari più dati (come scrivono in questi giorni).

Supponiamo di avere più studi di replica. Ora la trama si infittisce. Possiamo esaminare la distribuzione dei p-value e distribuire gli strumenti dell’analisi della curva p (Simonsohn, Nelson, & Simmons, 2014). L’idea di base è che sotto qualsiasi insieme di ipotesi razionali, la distribuzione di frequenza dei valori p può essere distorta, ma non sarebbe unimodale. Non dovrebbero esserci picchi locali e non dovrebbe esserci un picco particolare nell’area dolce tra 0,05 e 0,01, l’area che fornisce significatività e salva risorse. Questo picco locale sarebbe sospetto perché sappiamo che la distribuzione del valore p è piatta (uniforme) sotto una vera ipotesi nulla e sempre più distorta (con più piccoli p-valori) sotto una falsa ipotesi nulla (Krueger & Heck, 2018) .

L’analisi della curva P non sfrutta le informazioni disponibili. Esaminando una serie di studi, abbiamo anche o possiamo calcolare le informazioni sulla dimensione del campione (o sui gradi di libertà) e sulla dimensione dell’effetto. Negli studi, le intercorrelazioni tra valori di p, dimensione del campione (df) e dimensione dell’effetto (ES) possono essere rivelatrici o almeno possono, come amano dire i sapientoni contemporanei, “sollevare domande”.

Per illustrare il potenziale di questo tipo di approccio [e potrebbe non essere nuovo], utilizzo i dati di una pubblicazione di Lasaletta et al. (2014), ancora una volta, per non mettere in discussione gli autori, ma per provare una sorta di analisi statistica del modello. Gli autori hanno cercato di testare l’interessante ipotesi che l’essere in uno stato d’animo nostalgico riduce il bisogno e l’apprezzamento del denaro. In sei studi, scoprono che la nostalgia aumenta la disponibilità a pagare prodotti, aumenta la generosità nel gioco di un dittatore, riduce l’importanza percepita del denaro, riduce il valore percepito del denaro, aumenta la volontà di sopportare stimoli avversivi per una data quantità di denaro e riduce la dimensione percepita di alcune monete. I sei valori p sono .031, .020, .045, .027, .062 e .026. Notare il clustering nell’area dolce tra .05 e .01, con un’eccezione tollerabile. Questo fornisce solo motivi deboli di preoccupazione perché gli autori potrebbero aver predetto una dimensione di effetto medio per tutto, aver eseguito un’analisi di potenza e aver raccolto il campione consigliabile (ma non hanno riferito di aver fatto nulla di tutto ciò). Le dimensioni dell’effetto sono .55, .48, .46, .48, .37 e .63. Sono medie (dove d è intorno a 0,5, dove d è il rapporto della differenza tra i mezzi rispetto alla deviazione standard all’interno del gruppo). Ma c’è anche una variazione nel df (dimensione del campione), cioè 67, 125, 81, 98, 102 e 56.

Ora possiamo intercorrelare p, df ed ES, e chiedere se i risultati “sollevano domande”. Ecco cosa otteniamo: in primo luogo, la correlazione tra valori p e ES, r (p, ES), è -.71. Le dimensioni degli effetti più grandi vanno con valori p più piccoli. Questo è ciò che ci aspetteremmo se avessimo previsto lo stesso effetto di mezzo per tutti e sei gli studi, risultando nella stessa analisi di potenza e nella stessa df. Allora ES, non essendo perfettamente identico negli studi, sarebbe correlato negativamente con p. In secondo luogo, la correlazione tra la dimensione del campione (df) e la dimensione dell’effetto (ES), r (df, ES), è -.68. Gli ES più grandi vanno con campioni più piccoli. Questo è ciò che ci aspetteremmo se le differenze in ES fossero state previste e le analisi di potenza avessero fornito diverse raccomandazioni per la dimensione del campione. Quindi abbiamo una correlazione, r (p, ES), che ha senso se è stato previsto un ES costante e medio in modo che df possa essere costante. E abbiamo un’altra correlazione, r (df, ES), che ha senso se la variazione di ES fosse stata prevista in modo tale che piccoli campioni sarebbero sufficienti per i grandi effetti attesi. È l’uno o l’altro, non entrambi.

Avere due correlazioni in conflitto “solleva domande” riguardo al terzo, la correlazione tra df e p. Troviamo che r (df, p) = .03. Campioni più grandi possono produrre gli stessi valori di p (in media) come fanno i campioni piccoli se le differenze di ES fossero state predette e le analisi di potenza avessero dato diverse dimensioni del campione. In altre parole, preciso

le previsioni di potenza riducono il range dei valori p ottenuti e li separano da df.

Per esaminare, ES è correlato negativamente sia con p che con df. Cioè, quando la dimensione dell’effetto aumenta, entrambi i valori p e le dimensioni del campione diventano più piccoli. Questo è il risultato in conflitto. Di nuovo, possiamo immaginare come man mano che ES diventa più grande, p diventa più piccolo senza un cambiamento in df. E possiamo immaginare come man mano che ES diventa più grande, il df diventa più piccolo senza molti cambiamenti in p. Ma non possiamo immaginare entrambi allo stesso tempo. Possiamo ora chiederci quale tipo di correlazione tra p e df abbiamo il diritto di aspettarci se non ci fossero differenze in ES che fossero correlate negativamente con p e con df. La correlazione parziale tra p e df, controllando per ES è -.89. Quindi, se la variazione di ES è sconosciuta, campioni più grandi produrranno valori p inferiori. Questo non è accaduto qui, e solleva la domanda: perché c’è una notevole variazione in df con il risultato che df non è correlato a p?

Un’analisi alternativa

Rispondendo a questo saggio, Uli Schimmack ha proposto questa analisi:

Il Test di Scarsa Scarsa è il test più potente di bias di pubblicazione (o di alcuni altri QRPs pescosi).

Passo 1
Converti i valori p in z-score, usando z = -qnorm (p / 2)

p = c (.031, .020, .045, .027, .062, .026)
z = -qnorm (p / 2)
z
[1] 2.157073 2.326348 2.004654 2.211518 1.866296 2.226212

Passo 2
Calcola la varianza dei punteggi z
var.z = var (z)
var.z
[1] 0,02808286

Passaggio 3
confrontare la varianza osservata con la varianza attesa (deviazione standard di z-score = 1)
pchisq (var.z * (k-1), k-1) con k = numero di valori p (6)

> pchisq (var.z * 5,5)
[1] 0,0003738066

Conclusione: la probabilità che i valori p derivino da una serie di studi indipendenti è molto piccola, p = .0004. Il pescatore ha osservato molto tempo fa, “il principio politico che qualsiasi cosa può essere dimostrata dalle statistiche nasce dalla pratica della presentazione solo un sottoinsieme selezionato dei dati disponibili “(Fisher 1955, 75) [grazie a Deborah Mayo per la citazione]

https://replicationindex.wordpress.com/…/the-test-of…/

Riferimenti

Krueger, JI, & Heck, PR (2018). Test di significatività. Collabra: Psychology, 4 (1), 11. DOI: http://doi.org/10.1525/collabra.108.

Lasaletta, JD, Sedikides, C., & Vohs, KD (2014). La nostalgia indebolisce il desiderio di denaro. Journal of Consumer Research, 41 , 713-729.

Simonsohn, U., Nelson, LD, & Simmons, JP (2014). Curva P: una chiave per il cassetto dei file. Journal of Experimental Psychology: General, 143, 534-547