Insegnare all'iPhone di guidare

* Questo articolo è stato scritto insieme al neuro-fisico di Los Alamos, Michael Ham

Questa è una storia su una singolarità in arrivo.

Per chi non conosce, il termine "singolarità" viene dall'astrofisica, dove tecnicamente è il punto in un buco nero dove la materia è schiacciata in un punto minuscolo con massa infinita e senza volume; e metaforicamente un orizzonte degli eventi, un punto oltre il quale non possiamo vedere.

Negli anni '50, il matematico John von Neumann, applicò questa metafora alla tecnologia, scrivendo: "[Il] progresso sempre più accelerato della tecnologia e dei cambiamenti nelle modalità della vita umana, che dà l'impressione di avvicinarsi ad una singolarità essenziale nella storia della razza oltre il quale gli affari umani, come li conosciamo, non potrebbero continuare ".

Ray Kurzweil, autore di The Singularity is Near e il più grande divulgatore del termine, si riferisce alla singolarità come al momento in cui i computer diventano più intelligenti degli umani.

La singolarità che stiamo descrivendo non è assolutamente drammatica, ma non per questo meno rivoluzionaria. Molto presto, probabilmente entro i prossimi cinque anni, attraverseremo una linea e i computer inizieranno a vedere meglio degli umani.

Cosa significa questo? Bene, in questo momento i computer sono per lo più intrappolati in un universo digitale – non possono ancora avere un senso diretto del nostro mondo analogico. È ancora necessario un qualche tipo di intervento umano.

Siri per iPhone è un esempio. Parlando con il tuo iPhone, Siri converte un ingresso analogico (la tua voce) in una risposta digitale, ma il processo, pur sorprendente, richiede ancora un essere umano.

In visione artificiale, oltre che in sistemi estremamente ingombranti come LIDAR – gli occhi principali per l'auto autonoma di Google – la capacità di fare a meno del coinvolgimento umano non esiste ancora in alcuna capacità realistica.

Realisticamente, ciò che intendo è che il sistema LIDAR è a) molto costoso b) piuttosto ingombrante. In altre parole, non si adatta al tuo iPhone.

Ma se l'iPhone potesse elaborare i dati dalla sua fotocamera con la stessa accuratezza di un essere umano, potrebbe guidare la tua auto. In breve, questa è la singolarità visiva.

E ci stiamo avvicinando. Sia il riconoscimento della targa che il riconoscimento facciale sono trucchi visivi per computer che funzionano già. Ma sono algoritmi limitati: fanno una cosa molto bene, ma non molte cose. Non puoi collegare il tuo iPhone a Roomba e dirgli di pulire lo sporco, ma non i Lego.

Due forze stanno cambiando questo e, come si scopre, queste sono le stesse due forze che guidano tutte le singolarità.

Il primo sono le curve esponenziali. La legge di Moore, la legge di Butter, ecc. La stessa accelerazione della potenza computazionale che ha guidato la svolta di Siri sta alimentando l'evoluzione della visione della macchina. La differenza è che il riconoscimento vocale è un problema di megabyte, mentre la visione artificiale è un problema di gigabyte. Ma, visto che i nostri computer continuano a diventare più veloci, questo problema scompare completamente.

Il secondo è dati: una massa critica di dati.

Abbiamo trovato i modi più semplici per scimmie le capacità umane è quello di addestrarli. Ad esempio, è stata la massiccia crescita di siti Web (ad es. Testo digitalizzato) che ha permesso di verificare la singolarità della lettura del testo (il punto in cui le macchine potevano leggere oltre agli umani). Allo stesso modo, per ottenere la singolarità del parlato (aka Siri) sono state necessarie enormi quantità di parlato umano digitalizzato. Allo stesso modo, senza Youtube e le 72 ore di video caricate ogni minuto, la prossima singolarità visiva sarebbe impossibile.

Lungo queste linee, lo scorso giugno, Google ha collegato 16.000 processori di computer in una visione artificiale che apprende la rete neurale e li ha lasciati liberi su YouTube. Il risultato, come ha sottolineato il New York Times, è stato il network che ha imparato a riconoscere i gatti.

Perché? Semplice…. Ci sono tantissimi video di gatti su YouTube. Questa è una delle cose che ha visto molto. Proprio come un bambino impara a riconoscere gli oggetti che vedono ogni giorno.

La storia del gatto è andata in giro. Quello che la maggior parte della gente ha mancato in quel pezzo del Times è stato il fatto che l'algoritmo di visione artificiale di Google ha funzionato molto meglio di qualsiasi altra cosa che era arrivata, raddoppiando all'incirca la precisione (riconoscendo oggetti da una lista di circa 20.000 articoli) per il rilevamento dei gatti.

Questo raddoppiamento è una crescita esponenziale. Crescita esponenziale visibile. Ciò che significa è che mentre la visione artificiale è stata su una curva esponenziale per un po ', è stata sotto il ginocchio della curva, dove quei raddoppiamenti sono per lo più invisibili. Il successo di Google mette l'arco molto più vicino al ginocchio, il che significa che ci stiamo avvicinando sempre di più alla vista degli umani.

Da una prospettiva diversa, quando parliamo di vista come noi umani lo sappiamo, stiamo parlando di una soglia di errore accettabile. Il sistema visivo umano è piuttosto buono. Non eccezionale, ma più che sufficiente per mantenerci in questi ultimi 200.000 anni. Proprio per questo motivo, il tasso di errore è accettabile per noi.

Ma ha dei limiti. La visione umana si stanca. Negli esperimenti effettuati presso il laboratorio nazionale di Los Alamos, quando agli esseri umani veniva chiesto di svolgere compiti di riconoscimento degli oggetti, gli esperimenti venivano tenuti al di sotto di un'ora per non arrivare al punto in cui i soggetti non potevano più concentrarsi sull'attività. La macchina di Google ha funzionato per una settimana su milioni di immagini, ben oltre il punto in cui ogni umano poteva sperare di tenere il passo.

Una volta superata questa soglia, l'impatto sulla società sarà significativo.

In questo momento, ad esempio, abbiamo il robot chirurgico Da Vinci. Invenzione sorprendente. Da Vinci aiuta i chirurghi a eseguire qualsiasi cosa, da bypass cardiaco a bypass gastrico con molta più precisione e meno danno collaterale rispetto a un umano non aiutato. Ma il Da Vinci ha ancora bisogno del coinvolgimento umano. La sua capacità di eseguire l'intervento vero e proprio è molto meglio delle nostre mani, ma ha bisogno di prendere in prestito i nostri occhi. Ma quando la visione artificiale diventa migliore della visione umana, il chirurgo diventa obsoleto.

Ok, non completamente obsoleto, avremo ancora bisogno delle loro conoscenze e capacità di ricerca. Tuttavia, IBM ha inviato Watson (il supercomputer vincitore di Jeopardy) alla scuola di medicina. Viene caricato con tutti i dati medici possibili. I risultati metteranno un dispositivo diagnostico incredibilmente potente nel cloud. Accoppiare quel dispositivo diagnostico a una visione artificiale migliore dell'essere umano (e analisi microfluidica lab-on-a-chip) e non sono solo i chirurghi che sono senza lavoro.

Anche i medici. Al momento, l'errore diagnostico per i medici umani è del 45 percento. Ciò significa che se vai dal tuo medico tre volte, le percentuali dicono che ha sbagliato qualcosa in una di quelle visite. Abbiamo già Watson, la tecnologia lab-on-a-chip è a pochi anni (vedi il Qualcomm Tricorder X Prize). La visione artificiale completerà il triumvirato. I risultati cambieranno l'assistenza sanitaria per sempre.

Sinceramente, non si tratta solo di assistenza sanitaria. Una volta che le macchine saranno in grado di interagire visivamente con il mondo, sbloccherà un tesoro di tecnologie che ora sono solo fantascienza.

Quindi, Siri, spingimi a lavorare mentre finisco di guardare gli ultimi venti minuti di Terminator.