Le statistiche dei risultati impossibili

supernova

Mulder

: Credi nell'esistenza degli extraterrestri?

Scully : Logicamente dovrei dire di no. Date le distanze necessarie per viaggiare dai confini dello spazio, il fabbisogno energetico supererebbe le capacità di un veicolo spaziale …

Mulder : saggezza convenzionale …

Ho scritto in precedenza su una conferenza tenuta dall'astronomo cileno Mario Hamuy. Studiando supernovae molto remote, Hamuy e colleghi hanno trovato prove che hanno portato alla conclusione che l'universo si sta espandendo con velocità accelerata. Prima della loro scoperta, quasi nessuno ha pensato che fosse possibile. Parecchie ipotesi riguardanti il ​​tasso di decelerazione erano in gioco, e l'idea che la velocità di espansione fosse costante era la più estrema e fantasiosa. I dati di Hamuy erano più estremi di quanto l'ipotesi più estrema avrebbe consentito, e tuttavia questi dati sono ora ampiamente accettati, portando a una nuova ipotesi dopo il fatto: il tasso di espansione sta accelerando. Perché questo è così resta da spiegare (energia oscura chiunque?).

Hamuy mostrò un grafico con diverse linee, ciascuna raffigurante una particolare velocità di espansione. La linea più ripida non ha decelerato. Quando ha mostrato i dati delle supernovae lontane, l'aspettativa era che cadessero come punti su una di queste linee, confermando così il tasso di espansione (in evoluzione). La scioccante rivelazione fu che i punti si trovavano sopra la linea più ripida, e la misurazione era sufficientemente precisa per mantenere anche la linea più ripida fuori dagli intervalli di confidenza disegnati attorno ai punti. Hai l'immagine? Con test di significatività statistica, Hamuy (e quindi il resto di noi) fu costretto a concludere che i dati della supernova erano improbabili anche sotto l'ipotesi più vicina. Se (anche) quell'ipotesi dovesse essere respinta (le ipotesi di decelerazione furono respinte a fortiori ), bisognava stabilire una nuova ipotesi – e con velocità intergalattica. Da qui il ritorno della costante cosmologica di Einstein e l'arrivo dell'energia oscura (anti-gravità).

Sono stato persuaso dai dati e dalle conclusioni di Hamuy (lo sono ancora). Sembrava un forte uso di test di ipotesi. Hamuy e il suo team avevano stabilito ipotesi precise, e i dati li hanno spazzati via. Se uno non ha fatto test di ipotesi con questi dati, quali alternative ci sono? Un'alternativa, che citerò solo brevemente, è la stima delle dimensioni dei parametri o degli effetti . I sostenitori di questo approccio escono e misurano, calcolano medie (o altri tipi di statistiche aggregate) e margini di errore sulla base di informazioni sul numero e sulla dispersione delle osservazioni. Quindi tracciano i mezzi e gli intervalli di confidenza, proprio come Hamuy ha fatto per rappresentare la distanza delle supernovae. Il problema con l'approccio di stima pura è che è ateoetico. Nessuna ipotesi viene respinta o corroborata. Osservi i punti e dici "È quello che è". Puoi, naturalmente, stimare le tendenze centrali e notare se gli intervalli di confidenza includono un valore teorico. Se non lo fanno, puoi tranquillamente ignorare quel valore (e la teoria che lo predisse). Ovviamente, questa strategia ha l'odore rancido di provare ad avere entrambe le cose: rifiutare un'ipotesi, mentre pretende di guardare solo a ciò che è . Il test di significatività, deve essere ammesso, è meno ipocrita su questo argomento. Ci insegna cosa non è.

L'altra alternativa al classico test di ipotesi è la valutazione dell'ipotesi bayesiana. Sono solidale con la causa bayesiana, ma vedo dei limiti. I dati di Hamuy mostrano una di queste limitazioni, ma lasciatemi illustrare la mia preoccupazione per una versione stilizzata dei dati non massicci che ho recentemente trovato su questo lato della galassia.

Immagina un gioco sperimentale, nel quale potresti voler collaborare con una particolare probabilità. Ci sono due probabilità specifiche che possono essere derivate da ipotesi teoriche di gioco standard. Uno è .5 e l'altro è .75. Perché è così è irrilevante qui. Ora raccogliamo giudizi di probabilità da un gruppo di rispondenti e li media. Diciamo che la media è 0,8 e l'errore standard è 0,02. Usando il test di significatività, notiamo che la media empirica è maggiore del valore teorico più vicino di .75, t = 2.5, p = .013. Si noti l'analogia con il caso di Hamuy. I dati empirici sono così estremi da portarci a respingere anche la previsione teoretica più vicina. Non abbiamo nemmeno bisogno di testare la media empirica di 0,8 contro il valore teorico più remoto di 0,5.

O noi? Nel mondo bayesiano, valutiamo i dati alla luce di più (almeno due) ipotesi mutuamente esclusive e quindi rivalutiamo queste ipotesi alla luce dei dati. Per farlo dobbiamo dichiarare quali sono le probabilità precedenti di queste ipotesi, ma se sono uguali, non dobbiamo preoccuparci. Si cancellano a vicenda. L'obiettivo dell'analisi bayesiana è di articolare il supporto relativo che le ipotesi ricevono dai dati, e questo è espresso come un rapporto. Abbiamo già calcolato il valore p dei dati, D, in Ipotesi 1, in cui si afferma che la probabilità di cooperazione è 0,75. Questa probabilità è p (D | H1) = .013. Ora facciamo anche un test di significatività sulla Ipotesi più remota 2, che afferma che la probabilità di cooperazione è 0,5 e trova p (D | H2) = 6E-35, che è incredibilmente basso. Completiamo il cerchio bayesiano dividendo la prima probabilità per quest'ultima, che produce 0,013 / 56E-35 = 2E32. H1, che dice che la probabilità di cooperazione è 0,75, è favorita in modo schiacciante dai dati relativi all'ipotesi secondo cui la probabilità di cooperazione è 0,5. Il valore di .75 deve essere corretto. Destra?

Non così in fretta. Supponiamo che i nostri dati raggiungano la predizione dello spot H1, mentre tutto il resto rimane lo stesso. Ora p (D | H1) = 1 ep (D | H2) = 4E-27, che ci dà un rapporto Bayes di 2E26. Si noti che siamo arrivati ​​da 2E32. In altre parole, ora che i dati si adattano perfettamente a H1, il supporto relativo per H1 è più debole di quando i dati erano più estremi di H1, quando con il solo test di significatività avremmo rifiutato H1. È qui che i tester di significatività (e gli stimatori dei parametri) rispondono con gioia. Nelle statistiche bayesiane, tutto ciò che si ottiene è il supporto per l'ipotesi che è meno falsa con la conseguenza paradossale che il supporto relativo per un'ipotesi può aumentare come il suo supporto assoluto (la distanza tra dati e ipotesi) diminuisce.

I bayesiani potrebbero rispondere osservando un'intera distribuzione di ipotesi. Nel presente esempio, potrebbero iniziare con una distribuzione uniforme di tutte le ipotesi da una probabilità di cooperazione 0 a una probabilità di 1. In tal caso, il risultato empirico di .8 darebbe il più forte sostegno all'ipotesi che dice .8. Se lo facessero, i Bayesiani sarebbero indistinguibili dagli stimatori dei parametri. Avere una teoria significa aver già escluso alcune cose. E questa è una buona cosa finché la realtà non restituisce l'impossibile sulla mappa, come ha fatto nell'osservatorio di Hamuy.