Attenti alle piccole maggioranze

Galton In un recente post ho sostenuto che, sebbene si possa dire molto per la razionalità di base della conformità umana (e non umana), possono anche esserci problemi. L'esempio del giorno è stato un concorso di bellezza. Con troppa scelta di copiare tra le donne (le donne che scelgono gli uomini che scelgono le altre donne), sia le femmine che i maschi possono soffrire, in media.

Un altro limite è la dimensione della maggioranza che viene copiata. Supponiamo che stiate provando a stimare il numero di biglie in un barattolo di vetro. Ci sono più biglie di quante tu possa contare. Tuttavia, puoi fare una supposizione usando la tua impressione della dimensione del barattolo e della dimensione delle singole biglie. Supponiamo ora che le altre 100 persone abbiano già fatto stime indipendenti l'una dall'altra e che il 95% di queste stime sia compreso tra 700 e 800. Con il beneficio di queste informazioni, la vostra strategia migliore è stimare che ci siano 750 biglie nel vaso. Se hai stimato il numero di 200, ti riconosceresti come un outlier, il cui giudizio non dovrebbe essere considerato attendibile. Usare le informazioni aggregate delle stime degli altri è come utilizzare la linea di vita "sondaggio del pubblico" su "Chi vuole essere un milionario?" Ma cosa accadrebbe se si stimasse il numero di biglie in 200 prima di conoscere le stime degli altri? Una volta scoperto quanto sei lontano dal resto del gruppo, non dovresti obiettare quando la tua stima viene rimossa come valore anomalo.

Come regola generale, diventa più facile identificare i valori anomali man mano che aumenta il numero di osservazioni e quando la varianza o queste osservazioni diminuiscono. Supponiamo ora che ce ne siano solo altre due che hanno entrambe dato una stima elevata, mentre tu hai dato una stima bassa. Dovresti concedere con grazia l'idea che le loro stime sono probabilmente più accurate delle tue perché sono d'accordo l'una con l'altra, mentre non sei d'accordo? Questo è un pensiero allettante. Forse l'accordo rivela la precisione anche quando il numero di persone concordanti è al suo minimo logico.

Ora sosterrò che l'accordo è una mera procura di accuratezza, e non un buon particolare in questo. È vero che se tutti i giudizi sono accurati, saranno tutti d'accordo. L'inverso, tuttavia, non è vero perché i giudizi possono essere d'accordo per ragioni che non hanno nulla a che fare con l'accuratezza. Uno di questi motivi è il caso.

Il modo alternativo per procedere è usare tutti e tre i giudizi (i tuoi e i giudizi degli altri due) e calcolare la media. La media è la migliore stima del parametro latente che stai tentando di acquisire. Secondo questo approccio, ciascuno dei tre giudici è uno strumento di misurazione indipendente e ogni singolo giudizio è un insieme di informazioni (verità) e rumore (errore). Si presume che gli errori siano indipendenti l'uno dall'altro e che i giudizi medi li allontanino.

Ora abbiamo due raccomandazioni in competizione su come procedere se ci sono due giudizi alti e uno basso. (A) Rimuovere il giudizio basso o persuadere il giudice periferico a unirsi alla maggioranza; (B) media delle tre sentenze senza pregiudizio nei confronti di nessuno di loro. Ogni metodo ha i suoi sostenitori. L'argomento principale per A è che la bassa stima è "ovviamente" e al di fuori e che l'accordo indica la precisione [ho già messo in discussione questa idea]. Inoltre, i sostenitori di A credono che la discussione di ricerca del consenso tra i giudici sia sempre salutare. Attraverso la discussione, i giudici possono avvicinarsi alla verità. Ma quale verità? Se i due alti giudici concedono un po 'e il giudice basso concede molto, il risultato potrebbe essere la media che era già calcolata dai giudizi originali. Se è così, la discussione di gruppo è stata una perdita. In alternativa, se solo il giudice periferico concede (che è probabile che accada sotto la pressione di conformità asimmetrica), il risultato è ciò che si otterrebbe semplicemente ignorando il valore anomalo. Di nuovo, la discussione di gruppo è stata una perdita di tempo e di adrenalina. Una terza possibilità è che il giudice periferico conceda un po 'di più dei due giudici convenuti messi insieme. Il risultato è un giudizio di gruppo che può essere descritto come una media ponderata in cui ogni singolo peso è proporzionale alla prossimità del giudizio alla media complessiva. Sembra una buona idea, ma nessuno sa quali siano esattamente i pesi. Ci sono molti punti tra le strategie pure A e B, dove il giudizio ponderato può finire. Pertanto, considererò solo A e B nel resto di questo saggio.

Utilizzando due principi statistici, possiamo determinare se A o B è la strategia migliore senza fare appello all'intuizione, alla plausibilità o alla tradizione (lo abbiamo sempre fatto in questo modo!). Il primo metodo consiste nel chiedere quanto sia probabile l'insieme di tre giudizi osservati se assumiamo che A o B siano corretti. Supponiamo che i tre giudizi siano 2, 2 e -2. Pensa a questi numeri come a un campione tratto da una popolazione con una deviazione standard di 1. Contrariamente alla distribuzione normale standard, tuttavia, la media non è 0. Invece, la media è o 2 se supponiamo che la teoria A sia corretta, oppure è .667 (2/3) se la teoria B è corretta. La probabilità congiunta di trovare 2, 2 e -2 (o numeri più estremi) risulta essere .000008 sotto la teoria A e .00003 sotto la teoria B. Il rapporto tra quest'ultimo e il precedente è 3,75, il che significa che se entrambi le teorie erano considerate altrettanto verosimili all'inizio, la teoria B è quasi quattro volte più probabile che sia vera della teoria A. Questo risultato significa che se rimuovi il giudizio esterno (o persuadi il giudice dissidente) a cambiare idea, perdi informazioni importanti e il giudizio di gruppo risultante peggiora.

Il secondo metodo è quello di chiedere cosa succederebbe se venissero raccolti più giudizi da altri osservatori indipendenti [si noti che non è necessario ottenere effettivamente quei giudizi!] Ora assumiamo che la popolazione di numeri alla base di tutti questi giudizi sia una norma normale (M = 0, SD = 1). Quindi, l'insieme di numeri associati alla teoria A dopo la rimozione o correzione anomala (2, 2, 2) è estremamente positivo. Se una serie di tre giudizi fosse stata campionata dalla popolazione, la media risultante sarebbe molto probabilmente compresa tra 0 e 2, e più vicina a quest'ultima in quanto il processo di misurazione è affidabile. Poiché la misurazione non è mai completamente esente da errori, prevediamo una certa regressione rispetto alla media. Assumendo l'insieme di numeri dati dalla teoria B (2, 2, -2), la media del secondo campione di tre giudizi sarebbe molto probabilmente compresa tra 0 e 2/3, e poiché il 2/3 è meno estremo di 2, la dimensione dell'effetto di regressione previsto è inferiore alla teoria B che alla teoria A.

Come mostra questo esercizio, ignorare (o abbattere) i valori anomali in un piccolo campione non corregge l'effetto di regressione noto nella misurazione; invece, lo rende peggiore. La migliore stima sotto la teoria B (2/3) è probabilmente un po 'più alta di quanto sarebbe dopo il campionamento continuato. Se non altro, questa stima dovrebbe essere ridotta. Tagliando il valore anomalo, tuttavia, spostiamo la stima del gruppo da 2/3 a 2. Rendendo la stima più estrema, è più probabile che aumentiamo positivamente.

Illustriamo l'effetto di regressione con numeri concreti. Se assumiamo ottimisticamente che i giudizi sono altamente affidabili (r = 0,9), allora si stima che un giudizio medio di 2 (la media di 2, 2 e 2) si replichi come una media di 1,8. Per confronto, si stima che un giudizio medio di 2/3 (la media di 2, 2 e -2) sia replicato come .6. Si noti che in virtù del suo estremo più grande, il giudizio precedente risulta essere più gonfiato rispetto al secondo. Tuttavia, secondo il punto di vista secondo cui l'accordo incide sulla precisione, il precedente giudizio è il migliore. Se assumiamo più pessimisticamente che i giudizi abbiano solo un'affidabilità modesta (r = .6), gli effetti di regressione sono maggiori ma mostrano lo stesso schema. Una media originale di 2 regredisce ad un valore previsto di 1,2 e una media originale di 2/3 regredisce ad un valore previsto di 0,4.

Affinché pensi che questa storia sia troppo astratta e che le teorie A e B non facciano a meno, non dimenticare che sono importanti quando le piccole commissioni decidono ammissioni, finanziamenti, promozioni, ecc. Considerare 100 candidati che richiedono denaro fare ricerche. Ogni proposta è valutata da tre giudici e i punteggi di ciascun giudice sono standardizzati. Solo i primi possono essere finanziati. Una proposta con valutazioni di 2, 2 e 2 è sicura, ma una proposta con valutazioni di 1, 1 e 1 non lo è. Ora una terza proposta è del tipo discusso sopra (2, 2, -2). Secondo la teoria B (media semplice), questa proposta non ha il taglio. Secondo la teoria A (rimozione anomala), questa proposta sale al di sopra della seconda e probabilmente impedisce che venga finanziata. Quindi la discussione di gruppo può fare molti danni. Se, come in questo esempio, i punteggi relativamente alti sono di maggiore interesse, le proposte (persone) con un outlier negativo saranno selettivamente favorite. In un contesto di finanziamento o promozione, nessuno è interessato a casi con due punteggi bassi e un punteggio elevato.

La regressione influenza anche le decisioni discrete. Quando 3 giudici votano all'unanimità per finanziare un progetto (promuovere un collega o esonerare un sospetto), è incauto concludere che tutti gli altri sarebbero d'accordo se richiesto. La probabilità reale di 'aye' è [probabilmente] inferiore alla sua probabilità nel campione se quest'ultimo è elevato. Se, ad esempio, la probabilità reale è 0, allora la probabilità che un campione di 3 giudici indipendenti (vale a dire i loro giudizi non correlati) sia unanimemente favorevole è73. In altre parole, eventi rari (qui: voti negativi) saranno sottorappresentati in piccoli campioni. Avendo osservato un campione di 3 giudici unanimi, è probabile che il vero consenso sia tutt'altro che perfetto. Ma quanto è imperfetto? Come sappiamo quanta correzione fare?

In questo esempio, ho assunto che in verità, p = .9, ma p poteva avere qualsiasi valore diverso da 0 [perché se p erano 0, non si poteva verificare sì]. L'elegante soluzione, proposta da Laplace, è quella di professare l'ignoranza; è per supporre che, all'inizio, tutti i valori di p siano ugualmente probabili. Dopo aver osservato un campione, possiamo chiedere quanto sia probabile che questo campione sia estratto da ogni possibile valore di p. Chiaramente, è probabile che un campione di 3 voti si sia disegnato se p = .99, seguito da p = .98, e così via per p = .01. Uno ha bisogno di un calcolo integrale per farlo correttamente, ma sotto il presupposto dell'ignoranza, tutto si riduce a una formula semplice e bella. La stima migliore, ovvero la stima che minimizza gli errori di regressione e gli errori del tipo opposto, è (k + 1) / (n + 2), dove k è il numero di "successi" [qui, sì voti] e n è la dimensione del campione. Avendo osservato 3 sì voti e nessun dissenso, la stima laplaciana del vero supporto nella popolazione è 4/5, o p = .8. Ignorare Laplace e stimare p = 1 è commettere un errore di regressione che è un quinto della stima in termini di dimensioni. Se il campione fosse più grande e l'unanimità fosse ancora osservata, il caso per l'assunzione della vera unanimità sarebbe più forte [ad esempio, se 30 su 30 giudici campionati votano sì, la stima di p è 31/32 o .969].

Torniamo ai pannelli senza unanimità perfetta. Se 29 anni esclamano un nay-sayer o inducono un cambiamento di mente, la presunzione di unanimità maschera un notevole effetto regressivo (.094 = 1-.906). La stessa strategia di esclusione o influenza sociale produce un errore di regressione molto più grande in un piccolo campione. Se 2 yea-sayers escludono o convertono un dissenter, l'errore è .4 (1-.6, dove .6 è (2 + 1) / (3 + 2).

La logica della misurazione, dell'integrazione dei dati e della correzione per l'errore probabile è una vendita difficile. Molte persone hanno un'avversione per il numero di crunch perché sembra meccanico. Sembra molto più umano avere una conversazione tra persone ragionevoli e raggiungere un consenso. Il consenso si sente bene. I membri della maggioranza, che probabilmente prevarranno, possono crogiolarsi nella credenza di essere entrambi corretti e socialmente persuasivi (avendo stabilito un dissidente diretto). L'ex dissidente ha almeno la soddisfazione superficiale di essere accettato dal gruppo. I 3 giudici probabilmente dormono bene quella notte, non rendendosi conto di aver commesso un'ingiustizia. Nell'esempio originale, un buon caso senza varianza iniziale (1, 1, 1) ora si posiziona al di sotto del caso che è passato da (2, 2, -2) a (2, 2, 2). In un contesto di finanziamento, in cui vi è una linea netta tra la vita e la morte, uno dei casi che ha fatto cadere una tacca perché il caso esaminato è aumentato, attraverserà quella linea. L'irrazionalità può generare ingiustizia.

Possiamo concludere che nel tipo di impostazione decisionale qui considerata, è razionale (ed etico) trattare ogni giudizio come un campione indipendente di uno come suggerito dalla teoria B. Se i giudizi sono continui, dovrebbero essere mediati. Se i giudizi sono discreti, dovrebbero essere convertiti in proporzioni. Entrambi i tipi di stima possono essere corretti per probabili errori di campionamento per combattere gli effetti di regressione. Non è scienza missilistica, e le persone che si sottomettono a essere giudicate meritano di essere trattate secondo i migliori standard.

A proposito, il signore nella foto è Sir Francis Galton.