Buon compleanno in ritardo AlphaZero

Machine Intelligence e Cognitive Psychological Science

Incontriamoci AlphaZero

AlphaZero è un programma di apprendimento automatico sviluppato da DeepMind che ha acquisito conoscenza del gioco di scacchi creativo da solo attraverso l’apprendimento profondo senza alcuna guida umana. Ora è il più forte degli scacchi, degli scacchi giapponesi (shogi) e del giocatore di Go nel mondo, che batte costantemente i migliori giocatori umani e i migliori motori di scacchi. Perché dovrei augurargli un buon compleanno? Intendo perché dovrei congratularmi per la sua nascita? La risposta breve è che è perché recentemente ho saputo che AlphaZero ha raggiunto l’intuizione durante l’ottobre 2017 e, a mio avviso, è diventata davvero intelligente. Da qui il mio tardivo augurio di buon compleanno.

Il mio uso del concetto di termine è stato suggerito dal seguente rapporto del New York Times del 26/12/18: “La cosa più snervante è che AlphaZero sembrava esprimere intuizione. Ha giocato come nessun computer ha mai, intuitivamente e magnificamente, con uno stile romantico e d’attacco. Ha giocato a calci e ha preso rischi “. Il comando Google “define: insight” restituisce la seguente definizione primaria: “la capacità di ottenere una comprensione accurata e profonda di una persona o di una cosa”. I sinonimi per l’intuizione includono: intuizione, percezione, consapevolezza, discernimento, comprensione, comprensione, apprensione , apprezzamento, acume e astuzia. Una definizione secondaria di intuizione è “una profonda comprensione di una persona o cosa”. Queste sono qualità di un’entità veramente intelligente.

Matthew Sandler e Natasha Regan sono entrambi maestri di scacchi inglesi. Hanno scritto un libro intitolato Game Changer , pubblicato da New in Chess , in cui analizzano le intuizioni nei giochi di scacchi e Go che AlphaZero ha sviluppato da solo senza alcuna guida umana. Hanno detto che AlphaZero ha scoperto aperture e strategie ben note mentre imparava a giocare a scacchi da solo. Hanno anche affermato di aver sviluppato nuove, impressionanti strategie creative a lungo termine perché non era vincolato dalla saggezza convenzionale impartita dai programmatori umani. Qui abbiamo grandi maestri che ammirano intuizioni che AlphaZero ha raggiunto da solo. Si potrebbe obiettare che AlphaZero è stato in grado di ottenere nuove intuizioni proprio perché la saggezza umana convenzionale è stata trattenuta, liberando così AlphaZero dai pregiudizi umani. La capacità di raggiungere l’intuizione è una caratteristica umana veramente intelligente. La “nascita” di una tale intelligenza rivoluzionaria e notevole merita un riconoscimento rispettoso. Quindi, auguro a AlphaZero un felice compleanno in ritardo!

generalizzabilità

La generalizzabilità è una prova di validità. La generalizzabilità è stata a lungo un problema importante per i tradizionali programmi di intelligenza artificiale (AI) basati su regole. I loro risultati sono stati limitati a compiti molto specifici. I programmi basati su regole sono altamente specializzati e possono solo fare ciò che sono stati specificamente programmati per fare. Non generalizzano a compiti simili correlati perché non possono imparare da soli. Aspettano che gli umani forniscano nuove regole aggiuntive.

Avendo insegnato a se stesso scacchi, shogi e go, AlphaZero ha dimostrato di poter scoprire nuove conoscenze da solo attraverso l’apprendimento di rinforzo. Questa capacità di generalizzare imparando da sola è un risultato notevole. Imparare da solo è un segno distintivo della vera intelligenza. Questa abilità probabilmente stabilisce la superiorità dell’intelligenza cerebrale basata sull’IA basata su regole. Ulteriori dettagli sono disponibili.

Un altro progetto DeepMind, un programma chiamato AlphaFold, utilizza l’approccio di apprendimento della rete neurale basato sull’encefalo cerebrale per risolvere un problema straordinariamente complesso che ha finora eluso gli scienziati. Mi riferisco a capire come le proteine ​​si piegano. Il modo in cui le proteine ​​si piegano all’interno del corpo in strutture tridimensionali determina come si legheranno ad altre molecole, inclusi i nuovi farmaci. Questa conoscenza è la chiave per comprendere e prevedere gli effetti che avranno le nuove medicine. AlphaFold sta facendo progressi nella comprensione di questo processo.

Il resto di questo blog mette in contrasto i modelli psicologici basati sulla mente con modelli psicologici basati sul cervello prima di fornire alcuni principi di base della rete che ci consentono di capire meglio come funzionano le macchine di connessione profonda come AlphaZero e AlphaFold.

Modelli basati sul cervello e basati sulla mente

Modelli basati sulla mente

La psicologia iniziò come una branca della filosofia naturale dove le spiegazioni basate sulla mente del comportamento umano derivavano dall’introspezione. Gli psicologi cognitivi tradizionali hanno continuato questa pratica con la loro opinione che le persone imparano e si comportano perché la mente segue le regole che governano la manipolazione dei simboli. La prova che questa teoria è sbagliata può essere ottenuta chiedendo agli esperti le regole che seguono quando lavorano. Generalmente gli esperti non riconoscono o segnalano di seguire regole di qualsiasi tipo mentre lavorano. Potevano aver seguito le regole quando erano novizi, ma si sono spostati oltre il seguire le regole man mano che diventavano esperti. Ma molti psicologi cognitivi continuano ad agire come se le persone seguissero sempre le regole quando pensano e si comportano. Agire come se qualcosa fosse vero quando non lo fosse potrebbe essere professionalmente conveniente, ma farlo non ha avuto molto successo come vedremo dopo.

L’approccio di manipolazione dei simboli basato su regole ha caratterizzato gli sforzi iniziali per creare l’intelligenza artificiale. Ad esempio, i computer sono stati programmati una volta con molte regole per giocare a scacchi, ma non hanno mai funzionato molto bene. I computer sono stati programmati con molte regole per identificare le persone da foto o video, ma hanno fatto anche meno bene e non potevano farlo in tempo reale. I limiti dell’approccio basato sulle regole sono evidenti, ma molti psicologi cognitivi continuano a spiegare il comportamento umano in termini di regole e regole, perché lo hanno sempre fatto e perché supportano la loro metafora informatica. Capiscono che il cervello agisce come l’hardware del computer e la mente per operare come un software in cui le regole sono come programmi informatici che governano il modo in cui le persone pensano, sentono e si comportano.

Questi stessi psicologi cognitivi ammirano i risultati raggiunti da sistemi IA di apprendimento profondo come AlphaZero, ma non si fidano di loro perché non riescono a capire come pensano perché non generano simboli o forme e seguono le regole come normalmente li comprendiamo. Quindi, AlphaZero non può comunicare con questi psicologi cognitivi in ​​modi che capiscono. Il problema qui è che AlphaZero impara come fa il cervello, non come la mente è detta. È necessario un nuovo modo di comprendere come AlphaZero pensa che sia rilevante per capire come funziona il cervello. Questo nuovo approccio può anche essere utilizzato per comprendere la psicologia cognitiva basata su modelli di rete neurali.

Modelli basati sul cervello

I modelli di rete neurale connessionista, noti anche come reti neurali, deep learning e intelligenza artificiale, sono alla base e spiegano come funziona Alpha Zero. Questi modelli adottano un approccio basato sul cervello per spiegare la psicologia cognitiva. Sono stati studiati seriamente da quando McClelland e Rumelhart e Rumelhart e McClelland hanno pubblicato i loro lavori seminali nel 1986. Nel 2014, ho pubblicato un approccio esplicativo alla psicologia della rete neuronale connessionista basato sul cervello nel mio libro intitolato Neuroscienze cognitive e psicoterapia: Principi di rete per unificato Teoria Ripercorre gli sviluppi nei decenni successivi dal 1986.

I modelli di rete neurale consistono di tre o più strati di nodi di elaborazione interconnessi che hanno molte delle stesse proprietà funzionali dei neuroni reali. Ad esempio, ogni neurone artificiale riceve input da molti altri neuroni artificiali proprio come fanno i neuroni reali. Ogni neurone artificiale somma questi input e genera un output se la somma dei loro input supera una soglia come fanno i neuroni reali.

I neuroni artificiali sono collegati tra loro da sinapsi simulate chiamate pesi di connessione. Questi pesi sono inizialmente impostati su piccoli valori casuali. L’apprendimento e la memoria si verificano regolando gradualmente questi pesi durante le prove di apprendimento. Il risultato finale è una rete in cui i nodi di elaborazione sono interconnessi con pesi ottimali per le attività in esame. I pesi di connessione sono così centrali nella funzionalità dei modelli di rete neurale connessionistica che il termine connessionista viene spesso omesso. I sistemi di rete neurale connessionisti possono agire come se stessero seguendo le regole, ma non formulano mai o seguono le regole come normalmente le comprendiamo e certamente non generano simboli. Ulteriori dettagli sono forniti nella prossima sezione.

Comprensione dei modelli basati sul cervello

Trovo che il modo migliore per comprendere i sistemi di reti neurali utilizzate da AlphaZero e altre intelligenze artificiali di apprendimento profondo sia capire i principi che li governano. Questi principi di rete possono anche essere intesi come proprietà della rete neurale. Ora discuto quattro di questi principi / proprietà. Ce ne sono altri, ma questi quattro sono fondamentali e dovrebbero iniziare. Vedi Tryon (2012, 2014) per ulteriori informazioni.

Principio / Proprietà 1: Architettura

L’architettura neurale del cervello reale è importante per la loro funzione. Ad esempio, il cervelletto ha circuiti speciali che gli permettono di controllare rapidamente i nostri muscoli in modo che possiamo camminare, correre e fare sport. Allo stesso modo, l’architettura delle reti neurali artificiali è importante per il loro funzionamento. Ad esempio, le reti neurali che hanno solo due livelli, chiamate Perceptron, non possono risolvere alcuni problemi logici. Le reti con tre o più livelli possono risolvere tutti i problemi logici. Esistono prove matematiche che reti neurali multistrato possono potenzialmente risolvere tutti i tipi di problemi. Vedi Hornik, Stinchcombe e White (1989, 1990) per la dimostrazione matematica di questa affermazione.

Principio / Proprietà 2: Cascata di rete: elaborazione incosciente

Le attivazioni generate da neuroni artificiali si propagano attraverso reti neurali artificiali in un modo descritto di seguito che riflette il modo in cui le attivazioni generate dai neuroni reali si propagano attraverso le reti cerebrali reali. La maggior parte dell’elaborazione del cervello avviene inconsciamente. La famosa analogia dell’iceberg riflette accuratamente questi eventi. Il novanta percento di un iceberg sott’acqua rappresenta ed è proporzionale all’elaborazione del cervello inconscia. Il dieci percento di un iceberg che si trova al di sopra dell’acqua rappresenta ed è proporzionale all’elaborazione cosciente del cervello. Vedi Cohen, Dunbar e McClelland (1990) per ulteriori dettagli.

La seguente figura illustra come funziona la cascata di rete. È una rete molto semplice, ma deve essere adattata a questa pagina. Lo strato superiore di tre cerchi simula tre neuroni di input. Possono essere compresi come neuroni sensoriali. Il numero “1” all’interno del cerchio indica che il neurone simulato è attivo. Il numero “0” indica che il neurone simulato è inattivo. Insieme, definiscono i tre input per questo sistema come: 1, 0, 1.

Warren W. Tryon

Rete neurale illustrativa

Fonte: Warren W. Tryon

Lo stato “on”, “off” dei neuroni simulati nei due livelli successivi viene calcolato anziché assegnato. Il secondo strato di tre serie di tre caselle simula le sinapsi che collegano i neuroni simulati nella parte superiore, il livello di input, con i tre neuroni simulati aggiuntivi nel terzo strato. La serie a sinistra di tre riquadri nella seconda riga rappresenta le sinapsi simulate che collegano il neurone simulato alla mano sinistra nella riga superiore con tutti e tre i neuroni simulati nella terza fila. Il gruppo centrale di tre riquadri nella seconda fila collega il neurone medio simulato nella fila superiore con tutti e tre i neuroni simulati nella terza fila. La serie a destra di tre box nella seconda riga rappresenta le sinapsi simulate che collegano il neurone simulato a destra nella riga superiore con tutti e tre i neuroni simulati nella terza fila. Le voci positive simulano l’eccitazione. Le voci negative simulano l’inibizione. Questi valori sono chiamati pesi di connessione perché specificano la forza della connessione tra due neuroni simulati. I valori attuali possono essere pensati in due modi. Una possibilità è che sono i primi valori assegnati casualmente all’avvio. Un’altra possibilità è che riflettono lo stato della rete in una fase di elaborazione arbitraria.

Gli stati on = 1, off = 0 dei tre neuroni simulati nel terzo strato vengono calcolati anziché assegnati. Ora dettaglio i calcoli rilevanti. Si noti che ciascuno dei tre neuroni simulati nella terza fila ha tre ingressi; uno da ciascuno dei neuroni simulati nella prima fila. Questi ingressi equivalgono allo stato del neurone trasmittente, 1 se attivo, 0 se inattivo, moltiplicato per il peso della connessione come segue. Ingressi al neurone della mano sinistra nel terzo strato uguale a 1 (.1) + 0 (-. 2) + 1 (.3) = .4. Questo risultato viene confrontato con una soglia che in questo caso è zero ma potrebbe essere un altro valore. Se la somma degli input supera lo zero, è positiva, come in questo caso, quindi il neurone simulato in ricezione, in questo caso uno della mano sinistra, diventa attivo o rimane attivo se in precedenza era attivo, come indicato dall’1 il cerchio che rappresenta la mano sinistra ha simulato il neurone nel terzo strato. Poiché zero volte nulla è zero, la somma di più input equivale alla somma dei pesi di connessione associati ai neuroni di invio simulati attivi.

Gli ingressi al neurone medio simulato nella terza riga sono 1 (.3) + 0 (.1) + 1 (.2) = .5 il quale essendo positivo attiva questo neurone simulato come indicato dal numero 1 nel suo cerchio. Gli input per il neurone simulato di destra nella terza riga sono 1 (-. 1) + 0 (.3) + 1 (-. 3) = -.4 che essendo negativo disattiva questo neurone simulato, lo spegne se prima era on, come indicato dal numero 0 nella sua cerchia.

Lo stato dei due neuroni calcolati simulati nella quinta riga è controllato dagli stati calcolati dei tre neuroni nella terza riga e dalle sinapsi simulate, pesi di connessione, nelle caselle nella quarta riga. Il neurone della mano sinistra simulato nella quinta fila diventa inattivo perché la somma dei suoi ingressi di 1 (-. 2) + 1 (-. 2) + 0 (.4) = -.4 è negativa e quindi inferiore alla soglia di zero . Il neurone simulato a destra nella quinta riga diventa attivo perché la somma dei suoi ingressi di 1 (.2) + 1 (.1) + 0 (.3) = .3 è positiva e quindi supera la soglia di zero.

Attivazione dei neuroni simulati nella parte superiore, input, strato si dice che passa in cascata attraverso le sinapsi simulate ai rimanenti neuroni simulati. Questo processo è automatico e deterministico.

Principio 3 / Proprietà: plasticità dipendente dall’esperienza

La rete calcolerà sempre lo stesso risultato se tutto viene lasciato così com’è. Non si verificherà sviluppo. La rete calcolerà un risultato diverso se i valori di input vengono modificati. Ma la rete non impara a fare meglio se i pesi di connessione rimangono gli stessi. L’apprendimento richiede che i pesi di connessione vengano modificati. La quantità di cambiamento è determinata da equazioni che simulano gli effetti dei meccanismi biologici di plasticità sinaptica dipendenti dall’esperienza che modificano le sinapsi reali tra i neuroni reali quando impariamo e formiamo i ricordi.

La modifica dei pesi di connessione significa che la rete calcola una nuova risposta ai vecchi valori di input dello stimolo. I pesi di connessione vengono modificati in base ai metodi di discesa del gradiente che garantiscono essenzialmente una risposta di rete incrementalmente migliore.

Vorrei fornire tre punti di partenza qui. Il primo punto che desidero sottolineare è che l’apprendimento e la memoria sono fondamentali per tutta la psicologia perché la psicologia non esisterebbe se non potessimo imparare e formare i ricordi attraverso la modifica sinaptica. Il secondo punto che desidero sottolineare è che tutti gli aspetti della nostra psicologia sono contenuti in ciò che Seung (2012) chiama il nostro connettivo ; la raccolta completa delle nostre sinapsi. Il terzo punto che desidero sottolineare è che i meccanismi di plasticità dipendenti dall’esperienza consentono alle nostre esperienze di cambiare fisicamente il nostro cervello e quindi modificare i modi in cui pensiamo, sentiamo e ci comportiamo. Non c’è niente di mentale o magico in questo processo.

Principio 4 / Proprietà: Apprendimento rinforzato

Gli psicologi comportamentali come BF Skinner hanno spiegato che il comportamento è rafforzato, diventa più probabile, attraverso il rinforzo di conseguenze positive o negative che seguono il comportamento. Non riusciva a spiegare i processi fisici del cambiamento sinaptico che permettevano al comportamento di cambiare, quindi ha semplicemente riconosciuto il cambiamento sostenendo che il ratto condizionato sopravviveva come un topo cambiato. Si rese conto che l’esperienza cambia il cervello, ma non potrebbe essere più informativo perché la biologia dell’apprendimento e della memoria era nella sua infanzia in quel momento.

L’apprendimento del rinforzo è ora molto più comprensibile. È un processo incrementale che non ha senso da una prospettiva cognitiva basata sulla mente in cui l’apprendimento e la memoria implicano seguire le regole per manipolare i simboli. I simboli non vengono generati un po ‘alla volta. Né ha senso che i simboli cambino un po ‘alla volta o che il loro significato possa essere modificato un po’ alla volta. Pertanto, sembrava che l’apprendimento di rinforzo non fosse in grado di spiegare come funziona la cognizione.

Ma, l’apprendimento di rinforzo ha molto senso dal punto di vista della rete neurale connessionista basata sul cervello, descritto in precedenza, in cui i pesi di connessione tra i neuroni iniziano a livelli casuali e vengono gradualmente regolati attraverso l’apprendimento in modo che convergono a valori ottimali attraverso un processo incrementale di cambiamento noto come discesa del gradiente.

AlphaZero ha sviluppato le sue capacità cognitive superiori attraverso il processo incrementale di apprendimento di rinforzo. Questo risultato mostra che gli psicologi cognitivi tradizionali sbagliavano a scontare l’apprendimento di rinforzo come valida spiegazione per lo sviluppo dei processi cognitivi.

L’apprendimento del rinforzo è una forma di evoluzione perché dipende in modo critico dalla variazione e dalla selezione . Successi e fallimenti determinano insieme il comportamento futuro. Skinner ha costantemente sostenuto che il comportamento animale e umano si evolve ontogeneticamente (oltre il tempo di vita) e filogeneticamente (per molte generazioni). L’apprendimento di rinforzo è un modo efficace per i sistemi IA di connessione per imparare dall’esperienza per conto proprio. L’apprendimento del rinforzo risolve efficacemente i problemi che sono troppo complessi per programmare le soluzioni. Ad esempio, è il metodo utilizzato per insegnare alle auto a guidare se stessi.

conclusioni

AlphaZero è un’intelligenza artificiale super-basata sul cervello che è capace di intuizione, rendendola molto più simile agli umani rispetto alle macchine IA tradizionali. Può generalizzare il suo apprendimento in modi che le tradizionali intelligenze artificiali basate su regole non possono. Regola rapidamente le sue sinapsi simulate attraverso l’apprendimento di rinforzo. Non genera simboli o formula e segue regole come normalmente comprese. Quindi, le intelligenze di reti neurali come AlphaZero e AlphaFold non possono aiutare gli psicologi cognitivi tradizionali a capire come funzionano. Per farlo è necessario un orientamento di rete neurale. I quattro principi / proprietà della rete neurale discussi sopra possono aiutarci a capire meglio intelligenze artificiali come AlphaZero.

Il successo di AlphaZero ci dice almeno due cose. In primo luogo , fornisce una prova empirica che l’apprendimento di rinforzo è sufficiente per spiegare l’acquisizione di complesse abilità cognitive inclusa la capacità di raggiungere l’intuizione. Secondo , supporta la validità di modelli basati sul cervello su modelli basati sulla mente. Ciò costituisce un importante cambiamento di paradigma nella psicologia cognitiva.

Buon compleanno AlphaZero!

Riferimenti

Cohen, JD, Dunbar, K. e McClelland, JL (1990). Sul controllo dei processi automatici: un account di elaborazione distribuita parallela dell’effetto Stroop. Rassegna psicologica, 97, 332-361. doi: 10.1037 // 0033-295X.97.3.332

Hornik, K., Stinchcombe, M., & White, H. (1989). Le reti feed-forward multistrato sono approssimatori universali. Neural Networks, 2, 359-366. doi: 10.1016 / 0893-6080 (89) 90020-8

Hornik, K., Stinchcombe, M., & White, H. (1990). Approssimazione universale di una mappatura sconosciuta e dei suoi derivati ​​utilizzando reti feedforward multilayer. Reti neurali, 3, 551-560. doi 10.1016 / 0893-6080 (90) 90005-6

McClelland, JL, Rumelhart, DE, e il gruppo di ricerca PDP (1986). Elaborazione parallela distribuita: esplorazioni nella microstruttura della cognizione, vol. 2: Modelli psicologici e biologici . Cambridge, MA: MIT Press.

Rumelhart, DE, McClelland, JL, e il gruppo di ricerca PDP (1986). Elaborazione parallela distribuita: esplorazioni nella microstruttura della cognizione, vol. 1: fondazioni . Cambridge, MA: MIT Press.

Seung, S. (2012). Connectome: come il cablaggio del cervello ci rende ciò che siamo . Boston: Houghton Mifflin Harcourt.

Tryon, WW (2012). Un approccio di rete connessionista alla scienza psicologica: principi fondamentali e corollari. Revisione di Psicologia generale, 16 , 305-317. doi: 10.1037 / a0027135

Tryon, WW (2014). Neuroscienze cognitive e psicoterapia: principi di rete per una teoria unificata . New York: Academic Press.