Il MIT crea IA che predice la depressione dal linguaggio

Una rete neurale innovativa rileva la depressione dalla conversazione.

Jacob Lund/Shutterstock

Fonte: Jacob Lund / Shutterstock

La depressione è uno dei disturbi più comuni a livello globale che ha un impatto sulla vita di oltre 300 milioni di persone e quasi 800.000 suicidi ogni anno, secondo le cifre del marzo 2018 dell’Organizzazione mondiale della sanità. Diagnosticare la depressione può essere uno sforzo impegnativo e complesso. Secondo la Mayo Clinic, i sintomi della depressione variano e i medici possono utilizzare un esame fisico, test di laboratorio, questionario di valutazione psichiatrica e criteri dal DSM-5 ( Manuale diagnostico e statistico dei disturbi mentali ) della American Psychiatric Association al fine di determinare un diagnosi di depressione [1]. Per un professionista della salute mentale, porre le domande giuste e interpretare le risposte è un fattore chiave nella diagnosi. Ma cosa accadrebbe se una diagnosi potesse essere raggiunta attraverso una conversazione naturale anziché richiedere il contesto da domande e risposte?

Un innovativo gruppo di ricerca del Massachusetts Institute of Technology (MIT) composto da Tuka Alhanai e James Glass al CSAIL (Computer Science and Artificial Intelligence Laboratory) e Mohammad Ghassemi all’IMES (Institute for Medical Engineering and Science), ha scoperto un modo per rilevare l’IA depressione negli individui attraverso l’identificazione di schemi nella conversazione naturale [2].

I ricercatori del MIT hanno sviluppato un modello di IA della rete neurale in grado di prevedere la depressione in base all’individuazione di schemi vocali da trascrizioni audio e di testo dalle interviste. Utilizzando un set di dati da 142 interviste ai pazienti registrate, il team ha mirato a modellare sequenze per il rilevamento della depressione. I ricercatori hanno incluso esperimenti di modellazione senza contesto, modellazione ponderata e modellazione sequenziale [3].

In primo luogo, il team ha cercato di valutare l’accuratezza della predizione delle caratteristiche audio e di testo “se considerato indipendentemente dal tipo di domanda posta, e il tempo richiesto durante la sessione di intervista” – in altre parole, la modellazione “context-free”. Il team ha alimentato 279 funzioni audio e 100 di testo in un modello di regressione logistica con la regolarizzazione L1 [4]. Per le funzionalità di testo, il team ha sfruttato Doc2Vec della libreria Gensim di Python per “un totale di 8.050 esempi di formazione, 272.418 parole e una dimensione del vocabolario di 7.411 [5].” Per le funzionalità audio, il team “ha estratto un set iniziale di 553 caratteristiche che rappresentano ogni risposta di soggetto. [6].”

Nel secondo esperimento, il team mirava a comprendere le prestazioni predittive “al condizionamento del tipo di domanda posta e indipendentemente dal tempo richiesto durante la sessione di intervista”. Per ottenere ciò, hanno creato un modello ponderato simile al contesto – modello libero, con un differenziatore chiave – aveva assegnato pesi al modello in base al “potere predittivo della domanda trovata nel set di allenamento”.

istockphoto

Fonte: istockphoto

Per il terzo esperimento, il team si è concentrato sulla “modellazione dei cambiamenti temporali dell’intervista” e ha utilizzato una rete neurale bidirezionale a memoria a lungo termine (LSTM), perché aveva “l’ulteriore vantaggio di modellare i dati sequenziali”.

È interessante notare che i ricercatori hanno scoperto che il modello aveva bisogno di dati quattro volte superiori quando si utilizza l’audio rispetto al testo quando si predice la depressione. Il modello richiedeva in media 30 sequenze per l’audio, rispetto alle sole sette sequenze di domande e risposte di testo. Il team ha osservato che la modellazione in sequenza è più accurata per la previsione della depressione e che il modello multimodale sia del testo che dell’audio è stato il migliore. Ironia della sorte, la natura dei modelli di reti neurali di AI offusca esattamente i modelli che scopre dai dati di input. L’opacità dell’IA è dovuta alla complessità intrinseca delle reti neurali con intricate connessioni tra i nodi e la grande quantità di parametri. Indipendentemente da ciò, questo studio del MIT rappresenta un passo innovativo verso la creazione di un nuovo potenziale strumento per assistere i medici e i professionisti della salute mentale nell’affrontare le complessità della diagnosi della depressione in futuro.

Copyright © 2018 Cami Rosso Tutti i diritti riservati.

Riferimenti

1. Personale della Mayo Clinic. “Depressione (disturbo depressivo maggiore”) Mayo Clinic. Estratto da https://www.mayoclinic.org/diseases-conditions/depression/diagnosis-treatment/drc-20356013 il 14 ottobre 2018.

2. Alhanai, Tuka; Ghassemi, Mohammad; Vetro, James. “Rilevare la depressione con la modellazione di sequenze audio / testo di interviste.” MIT. 2-6 settembre 2018. Estratto da http://groups.csail.mit.edu/sls/publications/2018/Alhanai_Interspeech-2018.pdf il 14 ottobre 2018.

3. Ibid .

4. Ibid .

5. Ibid .

6. Ibid .