Piccoli dati

Facciamo retromarcia la nostra strategia per la raccolta dei dati.

Attualmente, il carrozzone dei Big Data continua a prendere slancio: Approfitta di tutte le fonti di dati a nostra disposizione tramite dispositivi mobili, rilevamento aereo e remoto, telecamere, microfoni, reti di sensori wireless e simili. I dati sono lì, in attesa di essere raccolti per individuare le tendenze e trovare correlazioni. L’enorme volume di dati ci obbliga a utilizzare varie forme di ricerca e analisi basate sul computer, tra cui Machine Learning. L’approccio dei Big Data è eccitante poiché ci consente di tenere conto di enormi quantità di informazioni. L’approccio dei Big Data è anche inquietante quando affrontiamo la nostra insignificanza e ammettiamo che gli algoritmi e le macchine intelligenti sanno molto più di quanto possiamo mai fare.

Precedentemente, ho descritto alcuni motivi per essere a disagio nei confronti dei Big Data, il modo in cui l’analisi dei Big Data seguirà le tendenze attuali, ma mancheranno cambiamenti sottili ma importanti della situazione che rendono obsolete queste tendenze. Quel saggio sollevò anche il problema della mancanza di dati. Le persone a volte notano che qualcosa non è accaduto e l’assenza di un evento ci aiuta a dare un senso a una situazione. I Big Data generalmente coprono gli eventi accaduti e ignorano gli eventi che non si sono verificati, anche se questi non eventi possono essere significativi.

Questo saggio, tuttavia, non riguarda le limitazioni nei Big Data.

Invece, voglio suggerire che ci muoviamo nella direzione opposta: cercare di raccogliere meno dati possibili, idealmente solo un singolo punto dati – ma un punto dati che oscilla una decisione. Piuttosto che rimanere sommersi dal sovraccarico di dati, ci sono momenti in cui l’osservazione giusta metterà a fuoco gli indizi ambigui.

Ecco alcuni esempi.

1. (Questo esempio viene da Trevor Hadley, un ex analista del governo statunitense). Nel 2015 la CIA stava cercando di decidere se Russia e Cina avrebbero tenuto esercitazioni navali congiunte nel Mar Mediterraneo. Non c’erano dichiarazioni ufficiali. Le tendenze non erano chiare, le prove erano inconcludenti. Poi un analista esterno, un superforecaster, si è chiesto cosa sarebbe servito per rifornire una flottiglia cinese e ha iniziato a dare la caccia attraverso gli ordini di acquisto online da parte dei fornitori di navi a Cipro. Trovò nuovi ordini, ordini enormi, per riso e noodles dove nessuno era mai esistito prima. Giusto per essere al sicuro, ha anche investigato la guardia costiera locale. Annunci per i marinai e prove di riscoperte scoperte. Ma è stato il riso e le tagliatelle a fare il trucco. Caso chiuso.

2. (Questo esempio viene anche da Trevor Hadley.) Nel 2011, i francesi intendevano intervenire nella guerra civile in Libia? I francesi hanno negato di prendere in considerazione un simile intervento, ma la comunità dei servizi segreti ha imparato a non prendere troppo sul serio tali smentite. C’erano ragioni per aspettarsi che i francesi intervenissero. I tentativi di fare una previsione non sono riusciti. Un mercato di previsione non è stato utile. Poi un analista dell’intelligence ha avvistato un’oscura affermazione in una direttiva del servizio civile francese, un memorandum che proponeva modifiche ai regolamenti di assicurazione sulla vita per membri dell’esercito francese, elencando paesi in cui l’esercito francese era attualmente attivo – inclusa la Libia! Il memo è stato estratto dal sito web in pochi giorni e sostituito con una versione che ometteva la Libia, ma era troppo tardi. (Diversi mesi dopo la presenza delle forze francesi che combattevano in Libia è stata confermata). Caso chiuso.

3. Il governo degli Stati Uniti voleva fare previsioni sul voto del Regno Unito sulla Brexit. (Così fecero molti, molti altri paesi.) Gli analisti studiarono attentamente i sondaggi, cercando alcune informazioni che avrebbero fatto pendere l’equilibrio, ma i segni non erano abbastanza chiari. Quindi un osservatore ha osservato che le norme dell’Unione europea richiederebbero alle casalinghe britanniche di utilizzare un metodo diverso per preparare il tè. Le attuali teiere per far bollire l’acqua erano semplicemente troppo energetiche inefficienti, aumentando inutilmente l’impronta di carbonio. L’UE ha richiesto un dispositivo più efficiente per l’ebollizione dell’acqua, ma ciò richiederebbe cinque volte più a lungo! Che effetto avrebbe avuto sull’invitare un vicino per una veloce tazza? Caso chiuso.

4. Nel 1990 la comunità di intelligence degli Stati Uniti stava cercando di prevedere se Saddam Hussein intendesse effettivamente invadere il Kuwait. Alcuni sentivano che si stava preparando ad attaccare. Altri dubitavano che sarebbe stato così avventato. Hanno visto il suo movimento di 30.000 soldati sul confine tra Iraq e Kuwait come una tattica prepotente intesa a intimidire il Kuwait nel fare concessioni. I soliti tipi di prove non hanno portato ad alcun giudizio conclusivo. Gli egiziani credevano che ci sarebbe stata una risoluzione pacifica delle denunce contro Saddam Hussein contro il Kuwait. Così ha fatto l’ambasciatore degli Stati Uniti in Iraq. E così i kuwaitiani – anche dopo che l’Iraq aveva piazzato tutte quelle truppe al confine, il Kuwait non mobilitò i suoi 18.000 soldati soldato e permise a molti di andare in congedo. Cosa avrebbe fatto Saddam Hussein? Un analista dell’intelligence statunitense, che lavora nel Dipartimento dell’Energia, ha osservato che l’esercito iracheno aveva requisito più di 10.000 camion civili. La rimozione di tutti questi camion era destinata ad avere effetti paralizzanti sull’economia irachena, interrompendo ogni tipo di attività commerciale. E questo sequestro di camion era stato tenuto segreto – non era stato annunciato pubblicamente. Non poteva intimidire i kuwaitiani perché non avevano idea che fosse stato fatto. Perché Saddam Hussein avrebbe fatto una cosa del genere se non avesse improvvisamente deciso che aveva bisogno dei camion per un’azione militare? Caso chiuso.

5. Il problema dell’accelerazione della Toyota. Questo problema fece sì che Toyotas accelerasse in modo incontrollabile, nonostante gli sforzi frenetici del guidatore di premere il freno e rallentare la vettura. Il caso ha ricevuto l’attenzione nazionale. Alcuni pensavano che il problema derivasse da tappetini spessi che intrappolavano il pedale dell’acceleratore, ma il malfunzionamento primario sembrava essere un problema tecnico nel software. Le toyotas contengono più di cento milioni di righe di codice, quindi alcuni bug del software sembrano inevitabili. Furono chiamati centinaia di casi di accelerazione in fuga. Toyota fu costretta a pagare miliardi di dollari in multe e insediamenti. Tuttavia, la comunità dei fattori umani ha avuto una diagnosi diversa: i piloti hanno erroneamente premuto il pedale dell’acceleratore pensando che fosse il pedale del freno. Quando l’auto ha accelerato piuttosto che rallentare, i piloti hanno percepito che i freni avevano fallito e che l’accelerazione era involontaria e incontrollabile. I piloti naturalmente hanno premuto il pedale sempre più forte, credendo che fosse il freno, solo per vedere l’accelerazione peggiorare. Non c’è un modo semplice per provare questa spiegazione, con molti dibattiti avanti e indietro sui dati. Ma si scopre che ci sono due argomenti killer. Uno è che esaminando le scatole nere nelle automobili, gli investigatori hanno scoperto che il pedale del freno non era stato abbassato nei casi di accelerazione in fuga. Il secondo argomento killer proviene da un podcast di Malcolm Gladwell nella stagione 1 della sua serie Revisionist History. Gladwell ha organizzato la rivista Car & Driver per mettere alla prova una Toyota Camry su una pista di prova. I piloti addestrati schiacciano il pedale dell’acceleratore fino al pavimento e poi, con il pedale dell’acceleratore ancora schiacciato sul pavimento, colpiscono i freni. La macchina si fermò. Prova dopo processo, la macchina si fermò. Nessun problema, senza stridore, senza fumo. I freni hanno facilmente sopraffatto l’acceleratore. Non c’è bisogno di rivedere le statistiche. Non c’è bisogno di rivedere le centinaia di milioni di righe di codice. Caso chiuso.

Questi esempi suggeriscono che less is more. Che la qualità delle informazioni conta più della quantità.

Il termine “Small Data” è usato in molti modi diversi in questi giorni. C’è anche un libro di ricerca di marketing di Martin Lindstrom, Small Data: I piccoli indizi che scoprono grandi tendenze . E una voce di Wikipedia. Ecco alcuni attributi che ho identificato in merito ai dati di piccole dimensioni.

Innanzitutto, la maggior parte dei riferimenti mette a confronto i dati di piccole dimensioni con i Big Data affermando che Small Data riguarda una connessione personale a una quantità limitata di informazioni, mentre i Big Data riguardano la necessità per le macchine intelligenti di selezionare il volume in espansione dei segnali disponibili .

In secondo luogo, i Big Data riguardano principalmente le correlazioni mentre i dati di piccole dimensioni riguardano le relazioni causali.

In terzo luogo, la connessione personale promossa da Small Data dipende dall’impegno delle competenze e dell’esperienza di una persona.

In quarto luogo, l’approccio dei piccoli dati ha lo scopo di promuovere approfondimenti (vedi Klein, 2013) e di trasformare la mentalità. Bonde chiarisce questo punto esplicitamente, che Small Data ha lo scopo di aiutarci a ottenere intuizioni che possiamo mettere in pratica.

In quinto luogo, quasi tutti sono d’accordo sul fatto che Big Data e Small Data non si escludono a vicenda o in competizione. Possiamo usare entrambi gli approcci.

Sesto, c’è una divergenza su come cercare oggetti significativi di Small Data. Alcuni suggeriscono che dovremmo iniziare con i Big Data e quindi ridurre l’output, creare log e altri artefatti. Non sono entusiasta di questa strategia. Invece, penso che il potere di Small Data venga quando usiamo i nostri modelli mentali per notare o trovare le informazioni critiche. I cinque esempi in questo saggio illustrano l’abile scoperta di dati critici, piuttosto che condensare l’output di un esercizio di Big Data.

Settimo, ci sono momenti in cui possiamo supportare i decisori selezionando alcuni casi rappresentativi da una popolazione molto più ampia e poi fornire dettagli su questi casi. Ad esempio, se un politico sta riflettendo su come un aumento del prezzo della benzina interesserà persone a basso reddito, potrebbe essere utile definire tre individui specifici, ad esempio un anziano su un reddito fisso che usa i mezzi pubblici, una madre single spola tra due o tre lavori, e un pensionato che si offre volontario con un gruppo di chiesa per guidare i membri della congregazione in vari eventi sociali, medici e relativi al benessere.

Ottavo, ci vuole esperienza per notare i punti critici di dati una volta che li incontriamo. Ci vogliono modelli mentali ragionevolmente sofisticati per apprezzare come il punto dati può essere messo in azione – per vedere cosa ci offre.

Un rischio dell’approccio dei dati di piccole dimensioni è che può essere utilizzato in modo errato per selezionare esempi e aneddoti che trasmettono un’impressione fuorviante. Pertanto, l’approccio dei piccoli dati dovrebbe essere utilizzato nel contesto delle prove esistenti. L’approccio dei piccoli dati non elimina l’obbligo degli analisti di esaminare le variabili rilevanti. Ho scritto “Caso chiuso” alla fine di ciascuno dei cinque esempi, ma in realtà gli investigatori hanno cercato in modo appropriato dati aggiuntivi per confermare o per confermare le loro speculazioni. L’approccio dei piccoli dati, tuttavia, può limitare la tendenza ad accumulare sempre più dati semplicemente per soddisfare i bisogni compulsivi di completezza. L’approccio Small Data valuta la significatività dei dati rispetto all’accumulo.

Gli esempi in questo saggio suggeriscono che dovremmo riformulare i nostri sforzi per raccogliere informazioni. Invece di passare l’aspirapolvere a ogni boccone disponibile, potremmo fare bene a dirigere la nostra raccolta di informazioni verso la creazione di senso e la scoperta. Potremmo cercare indicazioni veramente diagnostiche, anomalie e dati mancanti – eventi attesi che non si sono verificati. Possiamo essere alla ricerca di “differenze che facciano la differenza”.

Riferimenti

Martin Lindstrom, Small Data: i piccoli indizi che rivelano enormi tendenze. New York: St. Marten’s Press.

Klein, G. (2013). Vedere ciò che gli altri non fanno: i modi straordinari in cui otteniamo intuizioni . New York: PublicAffairs.