Il programma per computer batte il campione europeo di go

Nel 1997, il giocatore di scacchi Deep Blue ha battuto il campione del mondo di scacchi Gary Kasparov in una partita di sei partite. Questo risultato fu sentito come un grande colpo per l'orgoglio umano visto come un simbolo dell'intelletto umano unico. Leccandosi le ferite, il genere umano cercò un altro gioco per sostituire gli scacchi come simbolo di intelligenza. Ha scelto il gioco asiatico di Go.

Go è giocato su una tavola 19 x 19, tra due giocatori (bianco e nero). Una volta posizionato, un pezzo (chiamato "pietra") non può essere spostato di nuovo. Lo scopo del gioco è guadagnare più territorio rispetto all'avversario, circondandone le pietre. Le regole sono semplici, ma il gioco è diabolicamente complesso, molto più degli scacchi (Gobet, de Voogt e Retschitzki, 2004): ci sono 10 172 posizioni possibili (una seguita da 172 zero), molte più del numero di atomi nell'universo conosciuto. In confronto, il numero di posizioni negli scacchi è "solo" 10 43 .

Rispetto ad altri giochi da tavolo come scacchi e dama, Go è più strategico e meno tattico. Cioè, i piani a lungo termine dominano le combinazioni a breve termine. Ciò è dovuto alle grandi dimensioni della tavola Go e al fatto che le pietre non si muovono una volta posizionate sulla scacchiera. Una conseguenza è che il gioco attinge aspetti cognitivi in ​​cui gli umani sono forti (riconoscimento di pattern, intuizione, pianificazione) e dove i computer hanno tradizionalmente sofferto. Al contrario, il gioco non soddisfa i tradizionali punti di forza dei computer, in particolare la capacità di cercare sistematicamente un gran numero di stati con la forza bruta.

Così, mentre i computer sono stati a lungo più forti degli umani in giochi come scacchi, Othello e pedine, erano stati piuttosto scarsi in Go, essendo incapaci di progredire oltre il livello di un buon dilettante. Un importante passo avanti è arrivato nel 2006, quando i programmi per computer hanno drasticamente aumentato la loro forza con una tecnica semplice ma sorprendente chiamata ricerca dell'albero Monte-Carlo (Lee et al., 2009). Piuttosto che cercare l'albero di possibili mosse in modo sistematico, questo metodo genera partite scegliendo in modo casuale le mosse per i due giocatori. L'intuizione è che, se una mossa nella posizione corrente è migliore delle alternative, questa mossa dovrebbe portare a risultati migliori in media, quando vengono giocati molti di questi giochi, anche se ogni singola mossa viene selezionata casualmente. Con variazioni più sofisticate di questa tecnica, la scelta delle mosse è distorta dall'esperienza precedente.

Breakthrough con AlphaGo

Alla fine dello scorso gennaio, la rivista Nature ha riportato un'altra svolta (Silver et al., 2016). Il programma AphaGo, sviluppato da Google DeepMind, non solo ha distrutto tutti i migliori programmi Go (99,8% delle vincite), ma ha anche sconfitto Fan Hui, un giocatore professionista di Go che aveva vinto il campionato europeo per tre volte. Il risultato è stato brutalmente chiaro: cinque a zero.

AlphaGo utilizza una combinazione di tre tecniche di intelligenza artificiale: ricerca dell'albero di Monte Carlo, di cui abbiamo appena discusso, Apprendimento profondo e apprendimento di rinforzo. L'Apprendimento profondo consiste nell'adattare i pesi di una rete neurale artificiale, usando tecniche recentemente sviluppate (LeCun, Bengio e Hinton, 2015). AlphaGo utilizza due reti: la prima suggerisce una mossa in una determinata posizione e la seconda valuta la posizione nel suo complesso. Il programma impara innanzitutto scansionando un gran numero di master games (30 milioni di posizioni). Quindi, gioca un gran numero di giochi contro se stesso, mettendo a punto i pesi delle sue reti usando una tecnica chiamata apprendimento di rinforzo. Questa tecnica utilizza il feedback ottenuto dal risultato dei giochi per imparare ulteriormente. L'apprendimento del rinforzo era già stato usato con successo per produrre programmi di alto livello in diversi giochi da tavolo, incluso il backgammon (Tesauro, 1995). L'intero apprendimento è computazionalmente molto costoso e richiede computer potenti.

Quando si gioca un avversario, AlphaGo usa le sue due reti per valutare le posizioni e influenzare la selezione delle mosse in modo da selezionare le mosse risultanti utili in passato. Il programma fa un po 'di pianificazione, con la ricerca dell'albero di Monte Carlo. La bellezza di questo approccio è che AlphaGo usa solo la conoscenza che ha imparato da sé. Ciò contrasta, ad esempio, con Deep Blue, che utilizza molte conoscenze codificate a mano dai suoi programmatori (Campbell, Hoane e Hsu, 2002).

Lezioni per la competenza umana

Cosa ci dice AlphaGo sulla competenza umana? Quali sono le implicazioni per il mondo di Go? Un primo risultato importante è che AlphaGo conferma l'importanza del riconoscimento del modello e dell'intuizione nei giochi da tavolo e presumibilmente in altri settori di competenza. Usando solo la sua abilità di riconoscimento del modello e senza usare alcuna ricerca, AlphaGo batte ancora la maggior parte dei programmi per computer. Questo non è sorprendente, dato che Go è un gioco strategico, ma il modo in cui AlphaGo è in grado di catturare così bene questo aspetto dell'esperienza umana è impressionante. L'importanza del riconoscimento dei pattern negli esperti umani è stata a lungo sottolineata da diversi ricercatori (ad esempio Adriaan De Groot, Herbert A. Simon e Hubert Dreyfus), anche quando c'erano differenze importanti nelle loro teorie (per i dettagli, vedi Gobet e Chassy, ​​2009).

Al contrario, questo progetto non parla molto della pianificazione umana e della ricerca. La ricerca dell'albero di Monte Carlo non è molto simile all'uomo: persino gli esperti semplicemente non generano migliaia di giochi (pseudo) casuali, raccogliendo statistiche lungo il percorso. Eseguono una ricerca più sottile e selettiva, in cui il riconoscimento del pattern si intreccia con la ricerca look-ahead (Gobet, 1997). Mentre Alpha-Go usa le sue conoscenze per cercare in modo selettivo, lo fa molto meno degli umani.

I computer hanno cambiato il modo in cui gli scacchi vengono riprodotti ai massimi livelli. Hanno aperto nuove vie concettuali e hanno esposto limiti scioccanti nel gioco degli esperti. Come conseguenza del gioco contro il computer, l'uso del computer per esercitarsi e l'uso di database computerizzati, la qualità del gioco è notevolmente migliorata negli ultimi due decenni. Le varianti di apertura che erano state ritenute ingiocabili sono ora impiegate, e altre che sono state ritenute soddisfacenti sono state confutate da analisi computerizzate. Un'altra conseguenza, questa volta non gradita, è l'emergere di imbrogli usando i computer. Sarà interessante vedere se simili sviluppi si verifichino con Go.

È altamente improbabile che l'accettazione dell'intelligenza artificiale sia universale come superiore all'intelletto umano. Le persone svilupperanno nuovi giochi e attività nel tentativo di preservare l'ascendente umano sui computer. Ciò porterà a tecniche informatiche ancora migliori. Questa corsa agli armamenti tra intelligenza umana e intelligenza artificiale porterà ad una maggiore comprensione dell'intelligenza umana e artificiale, a vantaggio di entrambi.

La prossima sfida

Mentre la performance di AlphaGo è notevole, bisogna ricordare che non ha battuto il campione del mondo (ancora). Sebbene sia un campione europeo, Fan Hui è "solo" un professionista 2 dan, e quindi chiaramente più debole dei professionisti Go di alto livello, che si classificano in 9 dan. Questo equivale approssimativamente alla differenza, negli scacchi, tra un Maestro e un Grandmaster di livello mondiale. In altre parole, un professionista 9-dan vincerà più del 95% del tempo contro un professionista 2-dan.

Quindi, qual è la vera forza di AlphaGo? Lo sapremo presto, dato che una partita è stata organizzata tra AlphaGo e Lee Se-dol, un professionista sud coreano di 9 anni considerato uno dei migliori giocatori al mondo. Mentre il team dietro AlphaGo è ottimista sul fatto che vincerà, i maestri Go credono che la mente umana prevarrà. Così fa Jonathan Schaeffer, un informatico che ha contribuito a molte scoperte nei giochi per computer: "Pensa a AlphaGo come un bambino prodigio. All'improvviso ha imparato a suonare davvero bene Go, molto rapidamente. Ma non ha molta esperienza. Quello che abbiamo visto negli scacchi e nelle pedine è che l'esperienza conta molto. "

Fernand Gobet e Morgan Ereku

Riferimenti

Campbell, M., Hoane, AJ, e Hsu, FH (2002). Profondo blu. Intelligenza Artificiale, 134, 57-83.

Gobet, F. (1997). Una teoria di ricerca del modello di ricerca nella soluzione di problemi esperti. Pensiero e ragionamento, 3, 291-313.

Gobet, F., & Chassy, ​​P. (2009). Competenza e intuizione: una storia di tre teorie. Minds & Machines, 19, 151-180.

Gobet, F., de Voogt, AJ, e Retschitzki, J. (2004). Mosse in mente. Hove, Regno Unito: Psychology Press.

LeCun, Y., Bengio, Y., & Hinton, G. (2015). Apprendimento approfondito. Natura, 521, 436-444.

Lee, C.-S., Wang, M.-H., Chaslot, G., Hoock, J.-B., Rimmel, A., Teytaud, O., et al. (2009). L'intelligenza computazionale di MoGo ha rivelato nei tornei computerizzati di Taiwan. Transazioni IEEE su Intelligenza computazionale e intelligenza artificiale in Giochi, 1, 73-89.

Argento, D., Huang, A., Maddison, CJ, Guez, A., Sifre, L., van den Driessche, G., et al. (2016). Padroneggiare il gioco di Go con reti neurali profonde e ricerca di alberi. Natura, 529, 484-489.

Tesauro, G. (1995). Apprendimento della differenza temporale e TD-Gammon. Comunicazioni di ACM, 38, 58-68.