Un nuovo tipo di chiaroveggenza

Un padre entrò in un negozio Target vicino a Minneapolis alcuni anni fa, stringendo una manciata di tagliandi che Target aveva spedito a sua figlia adolescente promuovendo vestiti per bambini, abiti premaman e culle. "Stai cercando di incoraggiare [mia figlia] a rimanere incinta?" L'uomo si lamentò con il manager.

Secondo un rapporto di Charles Duhigg del New York Times , il manager di Target si scusò per l'imbarazzante errore sul posto, e chiamò persino l'uomo per scusarsi una seconda volta. C'era solo un problema: dopo tutto, Target non era in errore. La ragazza del liceo in questione, all'insaputa dei suoi genitori, era in realtà incinta.

Il gruppo di marketing di Target aveva intuito che la ragazza si aspettava perché i suoi modelli di acquisto erano cambiati di recente in modi che prevedevano – sulla base dell'analisi dei Big Data di Target – che lei stava entrando nel suo secondo trimestre. L'analisi dei dati di Target aveva scoperto, ad esempio, che le donne che passano bruscamente dall'acquisto di lozioni profumate a non profumate sono in genere circa quattro mesi di gravidanza (spesso le donne incinte non amano i forti odori). Così Target ha iniziato a spedire tagliandi a tali donne, promuovendo tutte le cose di cui avrebbero avuto bisogno quando hanno dato alla luce.

Anche, come nel caso del Minnesota, a donne che erano ancora legalmente bambini.

Oltre a fungere da ammonimento sull'utilizzo di nuove tecnologie senza pensare alle implicazioni, la storia di Target illustra due concetti importanti sul comportamento umano.

Primo, un comportamento (cambiare lozioni) può prevedere in modo affidabile un'altra azione successiva (dare alla luce). Un altro esempio, descritto in un articolo del 2013 sulla rivista Nature , ha mostrato che il volume delle ricerche su internet per il termine "debito" ha fornito una previsione statisticamente significativa delle flessione a breve termine dei prezzi delle azioni.

Il grafico sottostante confronta il volume delle pagine di Wikipedia con il termine "debito" con il Dow Jones Industrial Average. L'interesse per la ricerca su Wikipedia nel "debito" ha in effetti qualche previsione predittiva delle fluttuazioni del mercato. Qui, il comportamento di ricerca su Internet prevedeva comportamenti di vendita nel mercato azionario. (Forse le persone si preoccupano della ricerca del debito il termine prima che vendano azioni per ripagarlo).

Eric Haseltine/Wikipedia
Fonte: Eric Haseltine / Wikipedia

Questo esempio illustra la seconda importante lezione scaturita dall'esperienza della lozione profumata di Target: "N" molto elevata (un gran numero di campioni), attraverso il potere delle statistiche inferenziali, può rivelare relazioni sottili ma coerenti tra un comportamento umano e un altro. L'analisi del "debito" appena presentata deriva da oltre 200.000 pagine di Wikipedia.

Un modo per pensare alle previsioni dei "Big-Data" derivati ​​dal web è che Internet, insieme a reti di dati private simili a quelle di Target, hanno accuratamente strumentato la specie umana, fornendo metriche e intuizioni sul comportamento su una scala senza precedenti. Ad esempio, oltre ai massicci depositi di dati privati ​​accumulati da Target, Walmart, Amazon, Google e altri, quasi 3,5 miliardi di persone ora usano il Web, lasciando una varietà di record del loro utilizzo per l'analisi dei Big Data.

Un intrigante esempio recente del potere che Big Data ha messo nelle mani di scienziati comportamentali è nel campo della scienza politica. Di recente sono stati fatti molti errori elettorali che hanno prodotto così tanta sorpresa alla vittoria elettorale del presidente Trump. Ma per quelli con i loro nasi sepolti più a fondo nei Big Data, l'elezione non è stata affatto una sorpresa.

Guarda la relazione tra il volume delle ricerche di Google (e per il 2016, le pagine di Wikipedia) per i candidati presidenziali prima delle elezioni del 2004, 2008, 2012 e 2016 e gli eventuali vincitori di ogni elezione.

Eric Haseltine/Google Trends/Wikipedia
Fonte: Eric Haseltine / Google Trends / Wikipedia

In tutte e quattro le elezioni, il vincitore delle ricerche su Internet prima delle elezioni (le persone che hanno cercato su Google un candidato o averle consultate su Wikipedia) è stato anche il vincitore delle elezioni. Presumibilmente il livello di curiosità degli elettori riguardo a un candidato è legato alla probabilità di votare per quel candidato.

È importante osservare, a questo punto, che le correlazioni dei Big Data sono tutt'altro che perfette. Nel suo libro Spurious Correlations , Tyler Vigen, laureato in giurisprudenza e consulente aziendale presso l'Harvard, illustra una profonda verità sulle statistiche: la correlazione non dimostra la causalità.

Ad esempio, Vigen mostra che esiste una correlazione quasi perfetta tra il consumo di margarina pro capite e il tasso di divorzi nel Maine. Eppure pochi sostengono che il consumo di margarina provoca il divorzio, o viceversa.

Fonte: Tyler Vigen

Con una "N" estremamente elevata di fonti di dati (letteralmente miliardi di database diversi accessibili solo sul Web), non è probabile che avvengano correlazioni casuali come questa, sono certe che accadrà.

Altre correlazioni "spurie" che Vigen ha scoperto includono:

  • Il consumo di formaggio pro capite e il numero di persone che muoiono rimanendo aggrovigliati nelle loro lenzuola (un sorprendente 600+ all'anno).
  • Persone che sono annegate dopo essere cadute da una barca da pesca e da matrimoni nel Kentucky.
  • Numero di lettere nella parola vincente a Scripps National Spelling Bee e il numero di morti da morsi di ragno velenoso.

Una delle spurie correlazioni di Vigen che attirò il mio interesse fu il forte legame tra le vendite di automobili giapponesi in America e i suicidi automobilistici negli Stati Uniti.

Tyler Vigen
Fonte: Tyler Vigen

Sullo schermo questa correlazione di vendita / suicidio di automobili al 93,5% sembra essere il tipo di artefatto che ci si aspetterebbe quando si "immergeva" un modello individuale di serie temporali (ad esempio, vendite annuali di automobili) in un oceano di dati contenenti tutto, dai suicidi ai consumo di formaggio per il tasso di matrimonio annuale in Kentucky – qualcosa in quell'oceano di dati è legato, per caso, per abbinare quel modello.

Ma la storia della scienza è ricca di esempi di scoperte casuali che a prima vista non avevano senso. Una forte evidenza per il big bang apparve per la prima volta come "rumore" inspiegabile in un ricevitore di telecomunicazioni. La dimostrazione della teoria della relatività generale di Einstein fu alla fine trovata in una strana anomalia nei tempi del punto estremo (perielio) dell'orbita di Mercurio attorno al sole. La penicillina è stata scoperta quando Fleming ha osservato un punto morto inaspettato in una capsula di batteri Petri.

Proprio come la legge dei grandi numeri impone che l'analitica dei "Big Data" scoprirà una pletora di correlazioni casuali, la stessa legge stabilisce anche che, occasionalmente, l'osservazione casuale rivelerà risultati imprevisti – come un punto morto in una capsula di Petri – che merita un sguardo più da vicino.

Avendo lavorato in una società automobilistica americana durante il periodo di ascesa giapponese nelle vendite di automobili, mi è venuto in mente che la correlazione tra vendite di automobili e auto suicida potrebbe non essere così casuale dopo tutto. Per prima cosa, l'aumento delle vendite di auto giapponesi è avvenuto mentre diminuivano le vendite di auto a marchio americano, provocando potenzialmente la depressione in una demoralizzata forza lavoro americana.

Per esplorare questa possibilità, ho confrontato le vendite di auto americane di marca (linea blu sotto) nello stesso periodo dell'analisi di Vigen. Il confronto suggerisce un legame plausibile tra il volume delle vendite di auto giapponesi e i suicidi statunitensi.

Tyler Vigen/USDT/Eric Haseltine
Fonte: Tyler Vigen / USDT / Eric Haseltine

Quando le vendite di auto di marca americane aumentarono rispetto alle vendite di auto giapponesi dal 2000 al 2001, i suicidi in auto in America diminuirono un po 'circa un anno dopo. Quando le vendite di auto americane hanno iniziato a diminuire nel 2001, i suicidi americani in auto sono saliti un anno dopo, nel 2002. Un anno dopo che le vendite di auto americane hanno iniziato un brusco calo nel 2005, i suicidi legati alle auto hanno fatto un balzo.

Una possibile ragione per cui i suicidi in auto in America sono aumentati dopo una flessione delle vendite di auto americane è che tali flessioni mettono le persone fuori dal lavoro nell'industria automobilistica e nelle migliaia di aziende che dipendono dall'industria. Un recente articolo sull'American Journal of Preventative Medicine ha scoperto che le recessioni economiche probabilmente aumentano i suicidi. Drs. Webb e Kapur, scrivendo su Lancet Psychiatry , hanno dimostrato che più di 40.000 suicidi all'anno erano associati alla disoccupazione globale nel 2006 e nel 2007 e che la recessione del 2008 era responsabile di ulteriori 4.000 suicidi in quell'anno.

Nel grafico sottostante, la linea marrone in basso rappresenta l'occupazione totale negli Stati Uniti nel settore automobilistico. I posti di lavoro negli Stati Uniti sono infatti svaniti con l'aumentare delle vendite di automobili giapponesi.

Tyler Vigen/USDT/Eric Haseltine
Fonte: Tyler Vigen / USDT / Eric Haseltine

Infine, i dati CDC indicano che durante il declino di 10 anni delle vendite di automobili di marca americane, il tasso di suicidio in America (linea verde sotto) è aumentato costantemente.

Tyler Vigen/USDT/USDL/CDC/Eric Haseltine
Fonte: Tyler Vigen / USDT / USDL / CDC / Eric Haseltine

Nonostante la possibilità di un vero collegamento tra le vendite di auto giapponesi e i suicidi in auto negli Stati Uniti, il forte calo dei suicidi automobilistici nel 2009, quando ci furono anche grossi cali sia nell'industria automobilistica che nelle vendite di auto giapponesi, suggerisce che il rapporto tra auto vendite, disoccupazione e suicidio per auto non sono semplici.

Vale anche la pena sottolineare che il numero di suicidi in auto ogni anno (circa 100) potrebbe essere troppo piccolo per trarre conclusioni definitive sui collegamenti alla disoccupazione, vendite di automobili o qualsiasi altra cosa.

Inoltre, la difficoltà di determinare se un dato incidente d'auto fosse davvero un suicidio, offusca ulteriormente il quadro. Dato che il tasso di suicidio negli Stati Uniti è aumentato nel 2009 mentre i suicidi segnalati in auto sono diminuiti drasticamente, l'affidabilità del suicidio da parte delle statistiche automobilistiche è sospetta. Gli studi di Phillips e colleghi che mostrano un picco di incidenti stradali pochi giorni dopo suicidi ben pubblicizzati suggeriscono fortemente che i suicidi in auto, specialmente i suicidi "copia-gatto" che seguono rapidamente i resoconti dei suicidi sui mass media, sono significativamente sottostimati.

Nonostante tutti questi avvertimenti, la storia delle vendite di auto / suicidio vale la pena prestare attenzione, perché ci insegna a non liquidare inaspettatamente le inaspettate correlazioni con i Big Data.

Quando ti fermi a pensarci, le scoperte inaspettate – come la scoperta della penicillina – hanno un enorme potenziale per cambiare la situazione, proprio perché non si adattano alla nostra attuale comprensione del mondo. Quindi, quando inciampiamo nell'imprevisto, abbiamo l'opportunità di cambiare radicalmente la nostra comprensione della natura … e di noi stessi.

In questo spirito, ecco qualcosa di inaspettato sulle prospettive economiche future per l'America. Nel grafico sottostante, la linea blu mostra il prodotto interno lordo degli Stati Uniti (PIL, un indice di produzione economica) negli ultimi 12 anni, mentre la linea rossa frastagliata rappresenta il volume delle ricerche di Google per "Buon compleanno tardivo". Ho intenzionalmente ritardato i dati del PIL a 6 mesi di distanza dalle ricerche "Compleanno" mostrano che esiste una correlazione molto alta (0,96) tra il PIL e le persone che utilizzano "Happy Belated Birthday" 6 mesi prima (c'è una correlazione quasi altrettanto alta con "Happy Belated" e "Buon compleanno").

Google Correlate
Fonte: Google Correlate

In altre parole, per questo set di dati almeno, il volume delle ricerche relative ai saluti di compleanno (probabilmente le persone che cercano saluti di compleanno online) è un forte predittore di 6 mesi della produzione economica degli Stati Uniti.

Questa correlazione è falsa, come la connessione tra annegamento di pescherecci e matrimoni in Kentucky, o è sostanziale? L'intuizione dice che la correlazione è spuria.

Ramon Espelt Photography/Shutterstock
Fonte: Ramon Espelt Photography / Shutterstock

Ma posso pensare a modi in cui il collegamento potrebbe essere significativo. Ad esempio, quando le persone sono consumate dalla preoccupazione di essere licenziate nei prossimi sei mesi, hanno meno probabilità di avere tempo per inviare gli auguri di compleanno? I ricercatori di Google potrebbero, in generale, sapere di più su dove è diretta l'economia rispetto agli economisti? E questa consapevolezza potrebbe rivelarsi nei cambiamenti nei comportamenti di ricerca di Google ben prima delle statistiche economiche?

Vale la pena riflettere … soprattutto visto che (vedi la parte più a destra del grafico) le ricerche di "Happy Belated Birthday" hanno recentemente fatto un grande salto.