La vita e i tempi di P

Wikipedia; public domain
Fonte: Wikipedia; dominio pubblico

Totgesagte leben länger. ["Quelli pronunciati morti vivono più a lungo" o nel latino volgare: "Declaravit iam mortuum vivere"] ~ Origine sconosciuta

Spero che i valori p siano misure legittime. Altrimenti non ho imparato nulla nelle statistiche . ~ Lauren Krueger, studentessa di economia e finanza, Università di Maastricht

Le statistiche riguardano la probabilità e nessun singolo indice di probabilità ha visto tanto uso e tanto abuso quanto il cosiddetto valore- p (si veda qui per un saggio precedente). Poco p esprime la probabilità che i dati (oi dati più estremi) assumano che una particolare ipotesi (cioè un modello teorico della realtà) sia corretta. Spesso, questo modello teorico è teorico nel senso che presuppone che non ci sia nulla lì. Potresti dire, non credo che tu possa capire la differenza – dall'assaggiare da sola – tra il latte aggiunto al tè e il tè aggiunto al latte. Dire che non si può dire la differenza è dire che ogni volta che provi hai una probabilità di 5 di essere corretta. Se poi riesci in 8 tentativi su 10, p = .055 con un test a una coda. Per convenzione, saremmo incuriositi dai tuoi successi, ma non dedurremmo che tu avessi una capacità dimostrabile nell'ordine di versamento.

P è ovunque. Che si tratti della valutazione di associazioni tra variabili empiriche o differenze di mezzi, mediane, gradi o proporzioni, p fornisce una metrica comune. Le statistiche del test possono variare (r, b, t, F, chi-quadrato, U o W), ma p li rende comparabili. Tuttavia, molti statistici odiano p a causa dell'interpretazione errata e dell'abuso che tutti abbiamo visto o per quello che p non è e non pretende di essere, vale a dire la probabilità dell'ipotesi data i dati. I precedenti motivi di irritabilità sono una distrazione perché sono una questione di accoglienza di p e non della sua natura. Questi ultimi sono controversi perché p , se potesse parlare, non pretenderebbe di essere uguale alla sua probabilità condizionale inversa. Chiaramente, la probabilità dei dati data l'ipotesi, p (D | H), non può pretendere di essere la probabilità dell'ipotesi data i dati, p (H | D). Solo le persone che non capiscono come sono correlati i condizionali inversi possono farlo, il che ci riporta alla questione dell'ignoranza e dell'abuso.

Spesso, il disprezzo per p è mescolato con o giustificato dal disprezzo per il test di ipotesi nulla. L'ipotesi nulla (o nulla) di nessun effetto è spesso raffigurata come un uomo di paglia. Sappiamo già che è falso, quindi mostrare che è falso riportare un valore p basso è una sciarada mascherata da scienza. Veramente? Sappiamo già che hai la capacità di rilevare se il tè è stato aggiunto al latte o al latte per il tè (o la notevole "abilità" per farlo tornare indietro)? Le ipotesi nulle sono impostate come previsioni verificabili quando una persona ragionevole si aspetterebbe che non ci sia là. Quindi, quando in un insieme di studi ben progettato e replicato, p rimane basso, abbiamo una prova di esistenza (probabilistica).

C'è da chiedersi a gran voce gli orrori di p per un secolo, e recentemente è di nuovo in aumento, in gran parte perché gli scandalosi abusi di p sono venuti alla nostra attenzione, e non perché gli orrori intrinseci del metodo sono stati rivelati, sia con la matematica intelligente che con l' auto-da-fé . A chi ti rivolgi per un giudizio autoritario riguardo a p e al suo utilizzo? L' American Statistical Association, naturalmente!

Ed ecco! L'ASA è arrivata al compito e ha rilasciato una dichiarazione riguardo a p . Il consiglio di amministrazione si è riunito e ha invitato esperti di diverse scuole di pensiero per offrire la loro valutazione, e alla fine è stata pubblicata una relazione giudiziosa e prudente (Wasserstein & Lazar, 2016). Il tenore è che il valore p ha un valore probatorio, ma che è facilmente interpretato male e usato male. Bisogna fare attenzione e anche altri strumenti statistici dovrebbero essere usati. Questa non è certo una condanna dei valori di p come il lavoro del diavolo. Né è una dichiarazione che sono disponibili metodi alternativi così chiaramente superiori che i test di significatività e la segnalazione di p possono e devono essere abbandonati. In altre parole, il rapporto ASA è notevole in ciò che non dice. I ricercatori e i loro studenti possono continuare come hanno, mentre cercano di essere etici e consapevoli. Ne più ne meno.

Il rapporto ASA è il lavoro di un comitato, che riflette una condensazione di una serie di opinioni in una narrazione progettata per ridurre al minimo il disaccordo in media. È interessante notare (e al merito dell'ASA), 21 commenti sono pubblicati insieme al rapporto come materiali supplementari. Sembra che il maggio degli scrittori sia stato coinvolto nella preparazione del rapporto ASA, quindi le loro valutazioni individuali forniscono un'interessante finestra sulla variazione di opinione che viene aggregata nel rapporto. Ecco alcuni temi che emergono tra i singoli commenti:

Nella mia lettura, quattro dei commenti (Benjamin & Berger, Carlin, Johnson e Rothman) sostengono chiaramente un abbandono del valore p (cioè, il gruppo di non abbandono è la maggioranza, p = .007, a due code). Gli altri ammettono a malincuore che p ha alcuni usi, che altri metodi (soprattutto i calcoli bayesiani) hanno problemi identici o diversi, o che il problema "reale" non è un particolare indice statistico, ma il più ampio contesto epistemologico. Alcuni commentatori sostengono anche in modo enfatico l'uso del valore p , se ben compreso. Ecco alcune citazioni memorabili, provenienti da 7 dei 21 commenti:

"Cosa ha reso il valore p così utile e di successo nella scienza per tutto il 20 ° secolo, nonostante i malintesi così bene descritti nella dichiarazione? In un certo senso offre una prima linea di difesa contro l'essere ingannati dalla casualità, separando il segnale dal rumore, perché i modelli che richiede sono più semplici di qualsiasi altro strumento statistico ha bisogno. " ~ Benjamini

"A volte, soprattutto quando si utilizzano nuove tecnologie scientifiche emergenti, il valore p è l'unico modo per quantificare l'incertezza." ~ Benjamini

"I valori di P sono utili misure di estremità e servono a descrivere un insieme di numeri in un modo simile a quello dei punteggi Z e degli intervalli di confidenza." ~ Berry

I valori P "servono a descrivere un set di dati di numeri e in questo senso sono strumenti utili". ~ Berry

"Non è un problema di abbandonare i valori di P, è un problema di abbandonare la scarsa ricerca." ~ Ionannidis

"I valori P continueranno a offrire utili spunti." ~ Ioannidis

I valori P sono "un indice del significato probatorio dei dati all'interno di un modello statistico." ~ Lew

"I valori P sono una risposta utilizzabile e difendibile alla domanda su cosa dicono i dati." ~ Lew

"Non è corretto pretendere che un valore p sia" non valido "per non coincidere con una probabilità posteriore basata sull'una o sull'altra distribuzione precedente." ~ Little

"I valori di P dovrebbero essere mantenuti per un ruolo limitato come parte del meccanismo degli approcci statistici di errore." ~ Senn

"La scienza progredisce in parte escludendo potenziali spiegazioni dei dati. i valori di p aiutano a valutare se una data spiegazione è adeguata. " ~ Stark

Ma . . .

l'abuso e l'abuso rimangono un problema. Quando si googling "il valore p", un saggio di Deborah Rumsey arriva per primo. Scrivendo per dummies.com, Deb dichiara che " un piccolo valore p (tipicamente ≤ 0.05) indica una forte evidenza contro l'ipotesi nulla, quindi si rifiuta l'ipotesi nulla ." Ci chiede di ingoiare la sua argomentazione con un esempio gustativo, invitandoci Immaginare che " una pizzeria pretenda che i tempi di consegna siano mediamente di 30 minuti o meno, ma pensi che sia più di questo. Esegui un test di ipotesi perché ritieni che l'ipotesi nulla, Ho, che il tempo medio di consegna sia 30 minuti max, non è corretta. La tua ipotesi alternativa (Ha) è che il tempo medio è maggiore di 30 minuti. Si campionano casualmente alcuni tempi di consegna e si eseguono i dati attraverso il test di ipotesi, e il valore p risulta essere 0,001, che è molto inferiore a 0,05. "

E, per essere sicuro di aver capito, De declina che " In termini reali, c'è una probabilità di 0,001 che rifiuterai per errore l'affermazione della pizzeria che il loro tempo di consegna è inferiore o uguale a 30 minuti ."

Era solo così. L'ASA ha molto lavoro da fare.

Wasserstein, RL, & Lazar, NA (2016). La dichiarazione dell'ASA sui valori p: contesto, processo e scopo. The American Statistician, 70 , 129-133. doi: 10.1080 / 00031305.2016.1154108

I commenti sono qui