Giudizio sotto incertezza: statistiche e pregiudizi

J. Krueger
Fonte: J. Krueger

Ci sono ancora alcuni frequentisti rimasti. ~ Joe Austerweil, mentre rimugina un problema bayesiano "peloso"

I test di significatività sono visti da molti dei suoi professionisti come il paradiso dell'obiettività, il cuore del metodo scientifico e il Santo Graal che conduce a scoperte che definiscono la carriera. I dati vengono raccolti, viene calcolata una statistica di test e viene trovata la probabilità di una statistica almeno questa grande. Se questa probabilità è inferiore a 0,05, l'ipotesi nulla viene respinta. Qualcos'altro, non nulla , si presume che stia succedendo. In genere, si pensa che "non c'è niente" sia il trattamento che separa i soggetti sperimentali dai controlli. Il metodo è oggettivo nel senso che tutti quelli che conoscono il trapano ottengono lo stesso risultato.

'Obiettivo' non significa 'valido'. La validità dei metodi di test di significatività è stata messa in discussione per un secolo (una prima critica può essere trovata nel Libro di Giobbe , vedi nota di lavoro). Eppure, questi metodi prevalgono (almeno per il momento, la festa potrebbe essere finita domani). Perché? Gerd Gigerenzer (da qualche parte, a volte) ha osservato che l'uso del valore p, cioè utilizzando la probabilità dei dati sotto l'ipotesi nulla, p (D | H), per inferire l'inverso, cioè la probabilità dell'ipotesi data il dato, p (H | D), è un'istanza di giudicare dall'euristica rappresentatività . Non ha elaborato, per quanto ricordo, così farò qui.

Ricordare (o cercare) che p (H | D) = p (D | H) * p (H) / pD). I dati parlano all'ipotesi. Il loro effetto (verosimiglianza) deve essere moltiplicato per il rapporto tra i tassi di base, cioè la probabilità precedente dell'ipotesi divisa per la probabilità complessiva di trovare quel tipo di dati (in qualsiasi ipotesi). Il reverendo Bayes dice che tu moltiplicherai e dividerò. Test di significatività, tuttavia, la grande seduttrice, induce il ricercatore a saltare direttamente da p (D | H) a p (H | D), e i tassi di base sono dannati. Questa differenza tra l'uso e l'ignoranza delle informazioni di base è ciò che distingue il pensiero dal percepire nel lavoro di Tversky e Kahneman e in gran parte di ciò che hanno ispirato.

L' euristica rappresentatività divenne famosa per la sua negligenza definitiva, anzi, licenziamento, dei tassi di base (priori). Ascoltiamo Tversky & Kahneman (TK, 1974): "Molte delle domande probabilistiche con cui le persone sono interessate [sono del tipo che chiede] qual è la probabilità che l'oggetto A appartenga alla classe B? "A si riferisce ai risultati dello studio, e B è una potenziale realtà sottostante come descritto dall'ipotesi. Quindi, "nel rispondere a tali domande, le persone si affidano tipicamente all'euristica rappresentativa, in cui le probabilità sono valutate dal grado in cui A è rappresentativo di B, cioè dal grado in cui A assomiglia a B."

TK esamina 6 caratteristiche di giudizio per rappresentatività. Vediamo se si applicano ai test di significatività e alla sua pratica.

[1] Insensibilità alla probabilità di esiti precedenti . Questo si applica? Sì. Per colpa. Il test di significatività mette esplicitamente in parentesi la probabilità precedente dell'ipotesi nulla, o di qualsiasi altra ipotesi. I ricercatori possono contemplare tranquillamente la rischiosità del loro progetto (cioè le possibilità di trovare qualcosa in contrasto con niente), ma non sono invitati a formalizzare queste contemplazioni e lasciare che influenzino la loro inferenza sull'ipotesi dopo aver raccolto le prove. In questo senso, il test di significatività è ancor più robusto del rappresentante del giardino-varietà che pensa (io, percependo) voi e io ci accontentiamo di chiederci se il fidanzato di nostra figlia appartiene alla categoria dei "cretini". Non si comporta come un idiota, né sembra un idiota, ergo . . . e ignoriamo la dimensione della categoria dei cretini, cioè ignoriamo quanto sia probabile a priori che il giovane sia un idiota. Per inciso, è un po 'strano che TK introduca l'euristica rappresentatività nei termini delle sue caratteristiche e dei suoi risultati. L'abbandono di Bayes (più precisamente "l'abbandono del tasso di base") sembra indossare entrambi i cappelli.

[2] Insensibilità alle dimensioni dei campioni . Il test di significatività è sensibile alla dimensione del campione, quindi in questo senso il metodo non assomiglia all'euristica. Più grande è il campione, più è probabile scoprire un effetto, se ce n'è uno. Tuttavia, come nota TK, molti professionisti dei test di significatività mostrano questo tipo di insensibilità. È come se pensassero a un particolare tipo di euristica rappresentativa usando un altro.

[3] Idee sbagliate sul caso . Di nuovo, questo è un problema delle persone piuttosto che della procedura. Le persone hanno scarse intuizioni sul caso, che è una delle ragioni della loro vulnerabilità di essere sfruttate da casinò, venditori di lotterie e venditori di assicurazioni. I test di significatività hanno supposizioni sul caso integrato. Aiutano a produrre il valore p.

[4] Insensibilità alla prevedibilità. Qui, TK significa che i giudizi delle persone sono influenzati da buone storie. Prevedono il valore (qualcosa di positivo o qualcosa di negativo) dal valore della storia ignorando l'affidabilità della storia, ad esempio, se si basa su opinioni di esperti o dicerie. Test di significatività – e sto uscendo su un arto qui – ha quella che sembra essere una caratteristica simile (rappresentativa per così dire). Le inferenze che suggerisce sulla verità o sulla falsità dell'ipotesi nulla (cioè, le previsioni) sono basate solo sui dati, e non su quali altre ipotesi sono in gioco. Potrebbe accadere che il valore p sotto il valore nullo sia basso, ma che il valore p sotto un'ipotesi alternativa sia ancora molto inferiore, nel qual caso un bayesiano sosterrebbe che ci sono prove relative a favore dell'ipotesi nulla.

[5] L'illusione di validità . TK sostiene che fare affidamento sulla rappresentatività promuove un falso senso di validità. Questo dovrebbe essere così se le persone si affidano a un'euristica che non è perfettamente valida. Se non avessero alcuna illusione di validità, non farebbero affidamento sull'euristica. Ad ogni modo, il test di significatività – come notato nella prima frase di questo saggio – seduce le persone della ricerca ad essere illuse allo stesso modo. Pensando che il test di significatività è lo strumento principale per la scoperta scientifica, possono solo finire con una sicurezza eccessiva.

[6] Idee sbagliate di regressione . Bella questa. Ultimo ma non perso. Cercando il genio e trovando poco, Galton (Sir Francis) ha "scoperto" la regressione (alla media). I figli di uomini eccezionali non erano altrettanto eccezionali. Oggi conosciamo la regressione come una caratteristica essenziale di un mondo probabilistico. Eppure, pensando in modo rappresentativo, prevediamo A da B come se la correlazione tra i due casi sopra fosse perfetta anche quando non lo è. Nel contesto dei test di significatività, la regressione alza la testa quando i ricercatori presumono che repliche significative si replicheranno. Questo è legato ai punti [2] e [5], ed è principalmente un problema degli utenti dei test e solo parzialmente un problema del valore p; p parla alla propria replicabilità, ma con una voce molto bassa.

Il resto della storia è questa: TK intona nella lunga discussione dimenticata del loro famoso articolo "Non sorprende che utili euristiche come la rappresentatività [. . .] vengono conservati, anche se occasionalmente causano errori nella previsione e nella stima. "Eccolo: gli stessi TK hanno affermato che queste euristiche sono utili e che non dovremmo essere sorpresi dal fatto che le persone le usino. Se il test di significatività è davvero – come ho tentato di mostrare – una versione formalizzata dell'euristica rappresentatività, potrebbe ancora esserci ancora della vita.

E cosa si intende per "utile?" Un'euristica è utile se produce giudizi e scelte sufficientemente accurati a basso costo. È ancora in discussione la validità del test di significatività e il suo valore p a questo proposito. Dopo un po 'di lavoro di simulazione, sto iniziando a pensare che il test di significatività non sia così grave come è crollato.

Nota di lavoro Giobbe, uomo di leggenda incrollabile, rifiutò di respingere l'ipotesi che dio fosse buono nonostante prove schiaccianti del contrario.

In eigener Sache : registro tutti i miei post sotto la rubrica "social life" e anche sotto altri. Poiché non esiste una rubrica di "statistiche", potresti trovare questo post sotto "spiritualità". Buon lavoro Lavoro.

Tversky, A., & Kahneman, D. (1974). Giudizio sotto incertezza: euristica e pregiudizi, Scienza, 185 , 1124-1131.

Associazione sciolta : se riesci a sopportare un altro parliamo dell'associazione 'remota', che ne dite di questo: I test di criticità del significato caricano il fatto che il metodo sia distorto contro l'ipotesi nulla, cioè l'idea che ci sia 'non nulla' è accettata troppo facilmente . Questo significa che l'Ipotesi Nulla soffre di " sensibilità di rifiuto ?"

Questo post è stato scritto da un fantasma di Ovum Capu t, Ph.D.