Paura dei falsi positivi

Io sono l'unico dio che conosce le chiavi / l'armeria dove il fulmine è sigillato. / Non ce n'è bisogno, non qui. / Lasciami persuadere. ~ Aischylos: The Eumenides [1]

In un giornale molto diffuso che appare in Nature , Benjamin e 71 coautori chiedono che i livelli di significatività siano rafforzati dall'attuale convenzione di p <.05 a .005. L'argomento è che il registro pubblicato della scienza psicologica contiene troppi risultati falsi positivi, che ci portano a credere in cose che non sono così, come il Sasquatch o il priming sociale. Abbassando la soglia di significatività si ridurrebbe l'incidenza dei falsi positivi. Allo stesso tempo, dicono, la nuova convenzione, se adottata, contribuirebbe a risolvere la crisi di replica. O lo farebbe? Se è difficile replicare un risultato di .05 a un dato livello di potenza statistica, sarà difficile replicare un risultato di .005 allo stesso livello di potenza. Ricorda che il potere statistico è la probabilità di trovare un significato [come definito dalla convenzione] con una data probabilità [convenzionalmente .8] se il risultato originale è reale, cioè se è vero e non è un falso positivo. Al fine di rendere la loro proposta positivamente rilevante per la crisi di replicazione, gli autori propongono una soglia di significatività ridotta da applicare solo ai nuovi test di ipotesi. In altre parole, chiedono che riportiamo una nuova ricerca solo se p <.005, pur consentendo di replicarla con p <.05. [Questa proposta pone la domanda su come sappiamo cos'è un romanzo di prova.]

Questa proposta di serraggio è interessante ma flirta in incoerenza. Ricorda il vecchio detto che Dio ama p = .055 non meno (o non molto meno) di quanto ama p = .045 (e la prova del Professor Gelman). Ora anche a Dio non interessa molto quale studio sia stato condotto per primo e viene considerato il nuovo test di ipotesi e che è stato condotto in seguito. L'ordine di questi studi è teoricamente e statisticamente irrilevante (Krueger, 2001). Se desideriamo mantenere il primo e il secondo studio su diversi standard statistici, potremmo anche invertire la discussione. Cerchiamo di essere facili con i primi test di ipotesi perché non sanno ancora cosa siano. I primi test sono esplorativi, non di conferma (Sakaluk, 2016). I primi test sono il modo in cui gli scienziati si nutrono. Lo scienziato capisce che i facili test precoci produrranno molti contatti che in seguito si riveleranno essere vicoli ciechi, ma lui e lei capiscono anche che tali test porteranno alla luce molti risultati che verranno in seguito considerati vere scoperte.

Benjamin et al. conoscere i rischi di errori falsi negativi, ma non sembrano molto preoccupati. Questa mancanza di preoccupazione è extra statistica. È un giudizio di valore. Se credono che gli orrori dei falsi positivi siano maggiori degli orrori dei falsi negativi, devono difendere una soglia più severa. Poiché sostengono una soglia p più severa, possiamo invertire che essi detestano i falsi positivi (Krueger, 2017). Ma come alcuni di noi hanno sostenuto, dobbiamo considerare quale direzione prenderà la scienza quando si considereranno i cambiamenti nella pratica convenzionale (Fiedler, Kutzner e Krueger, 2012). Tuttavia, ci sono considerazioni statistiche in quanto possiamo stimare il tasso al quale i falsi positivi e i falsi negativi cambieranno con i cambiamenti nella soglia p. Negli esperimenti di simulazione, troviamo che abbassare la soglia p degrada la validità generale delle inferenze induttive (Krueger e Heck, 2017). Questo perché la proporzione di mancate aumenta più rapidamente della percentuale di falsi positivi. Insistere a ridurre la soglia di significatività alla luce di queste scoperte significa porre una maggiore disutilità su un falso positivo rispetto a un'utilità su un vero positivo.

E perché. 005 e non .01 o .001? Benjamin et al. ammettere che la scelta è tanto arbitraria quanto pragmatica. Si riferiscono a prove sociali (molti lo favoriscono) e all'aumentato fattore Bayes che ne consegue. Più basso è il valore p, più alto è il BF che favorisce l'ipotesi alternativa. Questo è un momento di verità per i Bayesiani tra gli autori. Il BF, come risulta, è una trasformazione log-lineare del valore p. Nulla di statistico viene aggiunto fino a quando i priori non sono inclusi, ma questa è un'altra storia.

Il rapporto di 72 autori è tratto dalla letteratura critica sui test di significatività. Questa letteratura si riduce a due affermazioni:

  1. i valori di p sono fatalmente viziati nel senso di essere incoerenti e inaffidabili;
  2. i valori p non sono abbastanza bassi.

I 72 sottolineano il secondo punto, sottolineando così il primo. Sicuramente, sarebbe difficile registrare entrambi i reclami nello stesso documento. Sarebbe piuttosto come la vecchia battuta ebraica che "Il cibo era orribile, e le porzioni erano così piccole!"

C'è un terzo punto, che non riguarda le basi statistiche, ma il loro uso. I critici lamentano che i ricercatori utilizzano senza senso o pedissequamente una soglia di significatività per fare inferenze categoriali sulla presenza o assenza di "qualcosa". Neanche Fisher, Neyman e Pearson sostenevano un rigido processo decisionale. Fisher considerò 05 come soglia ragionevole quando poco altro è noto, e Neyman e Pearson suggerirono che i ricercatori dovevano usare .05, .01 o .001 a seconda delle utilità relative dei due tipi di errore. Ora i 72 si avvicinano a chiedere un cambiamento normativo, un nuovo criterio di significatività che sarebbe vincolante per consenso sociale e decreto editoriale. Con ciò, i 72 commettono ciò che è altrimenti condannato come il peccato capitale di ST, il disegno di una linea luminosa tra essere e non essere.

Esiste davvero una psicologia di categorizzazione brillante. Il primo Tajfel (ad esempio, 1969) proponeva la teoria dell'accento come un modo per dare un senso alle diverse conseguenze della categorizzazione arbitraria (e non arbitraria). Ha riportato il risultato replicabile che i valori posti su un continuum sono percepiti come rispettivamente più piccoli e più grandi se cadono a sinistra (più piccolo) o al lato destro (più grande) di un punto di demarcazione (Krueger e Clement, 1994). L'accentuazione percettiva nel dominio degli indici e delle decisioni statistiche non è una malattia particolare che esce da ST.

Un'ultima complicazione che si nasconde nel rapporto 72 è cosa fare con i risultati passati. Forse il 72 intende implicare che tutti i risultati con .05> p> .005 siano ignorati. In effetti, questa conclusione deriva dalla loro proposta. Come notato sopra, Dio (e Fisher) non si preoccupano della relativa cronologia dei risultati. Qui il 72 può fare la differenza. Possono scegliere di registrare e sconfessare tutte le loro precedenti scoperte con .05> p> .005. Qualsiasi potenziale successiva replica di questi risultati è irrilevante perché dovrebbe – secondo la loro logica – non essersi mai verificato.

[1] Aischylos, mettendo queste parole nella bocca di Athena, sottolinea il potere della persuasione sull'autorità. Allo stesso modo, le nostre pratiche scientifiche dovrebbero rispondere a argomentazioni ragionate, non alla proclamazione per autorità.

Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E.-J., Berk, R., … Johnson, V. (2017, 22 luglio). Ridefinisci la significatività statistica . Estratto da osf.io/preprints/psyarxiv/mky9j

Fiedler, K., Kutzner, F., & Krueger, JI (2012). La lunga strada da un controllo alla validità vera e propria: problemi con un dibattito falso-positivo miope. Prospettive sulla scienza psicologica, 7 , 661-669.

Krueger, J. (2001). Test di significatività di ipotesi nulla: sulla sopravvivenza di un metodo imperfetto. Psicologo americano, 56 , 16-26.

Krueger, JI (2017). Inferenza inversa. In SO Lilienfeld e ID Waldman (a cura di), la scienza psicologica sotto esame: Recenti sfide e soluzioni proposte (pp. 110-124). New York, NY: Wiley.

Krueger, J., & Clement, RW (1994). Giudizi basati sulla memoria di più categorie: una revisione e un'estensione della teoria dell'accentuazione di Tajfel. Journal of Personality and Social Psychology, 67 , 35-47

Krueger, JI, & Heck, PR (2017). Il valore euristico di p in inferenza statistica induttiva. Frontiere in psicologia: Psicologia dell'educazione [Argomento di ricerca: Aspetti epistemologici ed etici della ricerca nelle scienze sociali]. https://doi.org/10.3389/fpsyg.2017.00908

Sakaluk, JK (2016). Esplorando piccolo, confermando grande: un sistema alternativo alle nuove statistiche per avanzare ricerca psicologica cumulativa e replicabile. Journal of Experimental Social Psychology, 66 , 47-54.

Tajfel, H. (1969). Aspetti cognitivi del pregiudizio. Journal of Social Issues, 25 , 79-97.