Venerdì scorso, Facebook ha bandito Cambridge Analytica (CA). Abbiamo parlato del ruolo svolto dall’approccio pubblicitario mirato di CA nelle elezioni presidenziali americane del 2016, subito dopo le elezioni. Questo divieto, molto più recente, si è verificato a causa di una violazione del protocollo di gestione dei dati (che copre ampiamente il modo in cui i dati sono ottenuti, trasferiti e archiviati) – NON a causa del modo in cui tali dati sono stati utilizzati. Un ricercatore accademico (Aleksandr Kogan) ha ottenuto i dati chiedendo agli utenti di aderire a un’app progettata per stimare le personalità degli utenti dal loro comportamento su Facebook. Il problema è iniziato quando il dottor Kogan ha scelto di fornire i dati a qualcun altro. CA è stata bandita da Facebook non perché hanno accesso e utilizzato i dati, ma perché non hanno attraversato i canali appropriati per farlo. Facebook ha scoperto la rottura del protocollo di gestione dei dati e ha chiesto che CA cancellasse i dati. CA fu d’accordo, ma poi Facebook scoprì da un informatore che avevano mentito, e così ora CA è bandita.
Fonte: Blogtrepreneur / flickr
Ma quello che sta ricevendo più attenzione è COME sono stati usati quei dati. La misura in cui comportamenti online apparentemente innocui possono essere utilizzati per prevedere le caratteristiche degli utenti è scioccante per la maggior parte delle persone. Tale previsione e targeting avvengono ogni giorno, ogni volta che si intraprende un comportamento che può essere collegato alla propria identità (online, attraverso profili di social media che tracciano individui attraverso siti Web confrontando indirizzi email o cookie del sito, o nel “mondo reale”, con acquisti effettuati presso diversi negozi utilizzando diverse carte bancarie e di credito abbinate a agenzie di segnalazione crediti). La maggior parte di questa previsione avviene in background, con i consumatori che ci pensano raramente, e il consenso per la raccolta e l’utilizzo dei dati esiste nella stampa fine di accordi utente che la maggior parte di noi fa clic senza pensare.
Comprendiamo facilmente che qualcosa come l’orientamento politico può essere indovinato dal vedere che una persona ama o segue determinati politici o organizzazioni. Se un ricercatore dovesse inferire un orientamento politico da parte di politici supportati da una persona, dovremmo chiamare tali dati validi . Cioè, la misura (i politici supportati) è chiaramente correlata alla cosa che stiamo cercando di prevedere (orientamento politico).
Ciò che è meno intuitivo è che la maggior parte – se non tutti – dei tuoi attributi personali può essere indovinata (anche se imperfettamente) da QUALSIASI informazione che è nota su di te. Le misure non devono essere considerate valide per fornire stime accurate. Se possiamo stabilire che una cosa è costantemente correlata a un’altra, non importa se quel collegamento è ovvio o causale. Tutto ciò che conta è che il collegamento esiste e ora possiamo usarlo per fare previsioni. Questo è comunemente definito come approccio empirico, bottom-up o basato sui dati alla misurazione. Mettere insieme un sacco di queste informazioni deboli (ma non zero) ci consente di trarre conclusioni valide. Questo è un esempio del principio di aggregazione : più dati sono sempre migliori, anche se alcuni o tutti quei dati sono di scarsa qualità. Naturalmente, per ottenere la stessa precisione di previsione sono necessari meno dati di alta qualità; ma se i dati di alta qualità potrebbero essere sospetti (ad esempio, le preoccupazioni di mentire in misure dirette, valide per il viso) o semplicemente non sono disponibili (ad esempio, misure approfondite di milioni di utenti Internet), un sacco di bassi i dati di qualità andranno bene.
Un documento di alcuni anni fa condotto da Michal Kosinski (riassunto abbastanza bene da Stephen Colbert) ha dimostrato come tali misure non valide per il viso possano essere costruite con i Mi piace di Facebook. Utilizzando un computer per testare tutte le possibili combinazioni di ciascuno come predire ogni tratto della personalità o risultato demografico, i ricercatori sono stati in grado di stimare in modo efficiente la personalità degli utenti, l’orientamento sessuale, l’appartenenza politica e altro ancora. Una volta che questi algoritmi sono stati sviluppati su un gruppo di persone in cui i ricercatori conoscono lo stato effettivo dei risultati a cui sono interessati (spesso indicati come il campione di addestramento o di sviluppo), possono essere applicati a nuove persone in cui i risultati sono sconosciuti. Puoi provarlo utilizzando i tuoi dati personali da Facebook o Twitter. (Questo sito NON È AFFILIATO con il ricercatore implicato nello scandalo CA, e non c’è motivo di sospettare che queste persone abbiano fatto o faranno qualsiasi cosa ingiustificabile con le tue informazioni, ma considera comunque che ogni volta che offri a qualcuno l’accesso ai tuoi dati, hanno il tuo dati.)
Eseguire il mio profilo Facebook attraverso l’algoritmo di predizione dimostra con precisione che sono una femmina (uno dei miei migliori predittori: la mia simpatia per Vin Diesel), competitiva (perché mi piace Sephora), e davvero abbastanza intelligente (che sono d’accordo, perché mi piace Will Smith). Ma non è perfetto. L’algoritmo suppone erroneamente di essere infelice (giuro che non lo sono, perché mi piace Rob Zombie). Interessante è anche il modo in cui tale approccio porta gli stessi predittori ad essere utilizzati per informare più tratti: il mio gradimento nei confronti di Starbucks e Barack Obama si rivela come un fattore determinante in quasi tutte le previsioni su di me. L’obiettivo di questi algoritmi non è tuttavia la previsione perfetta per ogni persona. Si tratta di raccogliere e utilizzare i dati su larga scala, in modo che, in media, gli annunci politici e aziendali possano essere indirizzati in modo più efficiente (risparmiando denaro e massimizzando l’impatto) e, dal punto di vista accademico / scientifico, possiamo risparmiare tempo chiedendo loro centinaia di domande che potrebbero essere valutate dai loro dati esistenti, purché siano disposte a condividerle.
Riferimenti
Kosinski, Stillwell e Graepel (2013). Tratti e attributi privati sono prevedibili dalle registrazioni digitali del comportamento umano. Atti della National Academy of Sciences.