Il nuovo metodo AI vince il prestigioso NeurIPS Award

La rete ODE è un innovativo modello di rete neurale profonda.

pixabay/geralt

Fonte: pixabay / geralt

Recenti scoperte nell’intelligenza artificiale (AI) sono in gran parte dovute all’apprendimento profondo, una tecnica di apprendimento automatico che consente a un computer di apprendere dai dati inseriti attraverso più livelli di elaborazione, piuttosto che eseguire da hardcoding esplicito. La maggior parte dei modelli di apprendimento profondo sono reti neurali artificiali con concetti architettonici in qualche modo ispirati ai neuroni biologici del cervello umano. Il mese scorso alla conferenza NeurIPS, un team di ricercatori di IA dell’Università di Toronto e del Vector Institute di Toronto, in Canada, ha vinto un “Best Paper Award” per “Equazioni differenziali ordinarie neurali”, uno dei quattro documenti selezionati dal molte migliaia di articoli scientifici sottoposti a una delle più grandi conferenze incentrate sull’intelligenza artificiale.

Allenare una rete neurale profonda con molti strati è molto più difficile di un’architettura superficiale che contiene uno o due livelli di calcolo. Una delle sfide dell’apprendimento basato su gradiente di reti neurali supervisionate in profondità è che con più livelli di calcolo è più difficile arrivare a una buona generalizzazione con il degrado. Kaiming Lui e il suo team di Microsoft Research hanno affrontato il problema della degradazione riformulando gli strati come funzioni residue di apprendimento con riferimento agli input del layer. Le reti residue funzionano definendo una sequenza discreta di trasformazioni finite. I ricercatori hanno scoperto che le loro reti residue potevano ottenere precisione con una maggiore profondità della rete e che erano anche più facili da ottimizzare.

Tuttavia questo approccio potrebbe rivelarsi problematico per i sistemi di intelligenza artificiale in cui l’immissione dei dati avviene a intervalli casuali piuttosto che discreti. L’architettura tradizionale delle serie temporali di reti neurali ricorrenti richiede intervalli discreti per l’immissione dei dati. Prendi le automobili per esempio. In genere un veicolo ben funzionante può visitare il rivenditore per una manutenzione programmata regolarmente. Ma cosa succede quando c’è un incidente d’auto, un richiamo o un malfunzionamento inatteso? Nella vita reale, i punti di dati spesso si verificano in momenti casuali: i dati di adattamento a intervalli discreti possono contribuire a una minore precisione.

Il team di ricerca AI di David Duvenaud, Jesse Bettencourt, Ricky TQ Chen e Yulia Rubanova ha presentato un nuovo tipo di modello di rete neurale scalabile che è allo stesso tempo efficiente sia in termini di memoria che di parametri. Piuttosto che usare una sequenza discreta di strati di trasformazioni finite, hanno applicato i principi del calcolo per creare un modello a profondità continua composto da una rete ODE (Ordinary Differential Equation).

Il team di ricerca ha parametrizzato la “dinamica continua di unità nascoste usando un’equazione differenziale ordinaria (ODE) specificata da una rete neurale.” La rete ODE crea output utilizzando un risolutore di equazioni differenziali black-box che utilizza il metodo adjoint per calcolare i gradienti.

Questo approccio strutturale può avere diversi vantaggi. Il loro modello non memorizza le quantità intermedie del forward pass, quindi è conveniente quando si tratta di memoria. La soluzione è anche efficiente in termini di parametri. Per i compiti di apprendimento supervisionato, sono necessari meno parametri perché i parametri degli strati vicini vengono automaticamente uniti quando le dinamiche delle unità nascoste sono parametrizzate come una funzione continua del tempo. Il modello di rete ODE è un modello di serie temporali continuo progettato per incorporare la temporizzazione casuale dei dati di input.

Con questi vantaggi, la rete ODE ha il potenziale di interrompere le reti neurali profonde in molte aree in cui eventi di serie temporali possono non verificarsi a intervalli regolari, come il monitoraggio dei pazienti, produzione, medicina personalizzata, ricerca scientifica, veicoli autonomi, farmacogenomica , sistemi di tracciamento delle risorse, trading finanziario, servizio clienti, business intelligence e molte altre applicazioni. Si tratta di un nuovo modello per reti neurali profonde che ha il potenziale per portare l’intelligenza artificiale al livello successivo in futuro.

Riferimenti

Chen, Ricky TQ, Rubanova, Yulia, Bettencourt, Jesse, Duvenaud, David. “Equazioni differenziali ordinarie neurali.” ArXiv: 1806.07366 . 19 giu 2018.

Bengio, Yoshua. “Apprendimento delle architetture profonde per l’intelligenza artificiale”. Fondamenti e tendenze nell’apprendimento automatico . Vol.2, n.1 (2009).

Lui, Kaiming, Zhang, Xiangyu, Ren Shaoquing, Sun, Jian. “Apprendimento residuo profondo per il riconoscimento dell’immagine”. ArXiv: 1512.03385v1. 10 dicembre 2015.