The Off-Policy Theory of Happiness

Perché i filosofi sono d’accordo su ciò che serve per essere felici.

Wikimedia commons.

Fonte: beni comuni di Wikimedia.

Ero al secondo anno al college quando per la prima volta mi resi conto che i miei genitori non mi avevano mai detto “Figliolo, vogliamo solo che tu sia felice.” Sembrava che i genitori di tutti gli altri avessero detto loro che qualunque cosa facessero, andava bene finchè li ha resi felici. Perché, mi chiedevo, i miei genitori non me l’avevano mai detto?

Ho capito immediatamente quando mi sono imbattuto in un passaggio dell’autobiografia di John Stuart Mill.

Mill era un ragazzo interessante. Aveva uno dei QI più alti nella storia dell’umanità (all’epoca non avevano test di intelligenza, ma gli storici psicologici hanno tentato di ricostruire il suo QI da altre prove). Suo padre, il venerabile storico James Mill, iniziò ad insegnare il greco antico all’età di tre anni. All’otto, aveva letto tutte le storie di Erodoto nell’originale. Quindi ho pensato che la sua storia di vita potesse essere una lettura accattivante. Ma non lo è. La sua autobiografia è un snooze-fest totale. A mio avviso, il lavoro è una raccolta esaustiva delle cose meno interessanti che Mill abbia mai letto, visto o contemplato. Un passaggio rappresentativo: “Quando abbiamo avuto abbastanza dell’economia politica, abbiamo adottato la logica sillogistica allo stesso modo, Grote ora si unisce a noi. Il nostro primo libro di testo era Aldrich, ma essendo disgustato dalla sua superficialità, abbiamo ristampato uno dei più completi tra i molti manuali della logica scolastica, che mio padre, un grande collezionista di libri del genere, possedeva, il Manuductio ad Logicam del Gesuita Du Trieu. Dopo aver terminato questo, abbiamo preso Whately’s Logic , poi ripubblicato per la prima volta dall’enciclopedia Metropolitana , e infine dalla Computatio sive Logica di Hobbes. “Per l’amore di Dio, John. Che importa?

Anche se non sono esattamente sicuro del perché, mi sono arrancato. E sono contento di averlo fatto.

Ma per capire cosa dice Mill riguardo alla felicità, devi prima capire un concetto dall’intelligenza artificiale. Si chiama apprendimento di rinforzo.

L’idea di base dell’apprendimento rinforzato è semplice. È un metodo per progettare un agente – sia esso una persona, un robot, un programma per computer – per comportarsi in modo intelligente. La definizione di intelligenza qui è ciò che gli scienziati informatici chiamano “massimizzazione della ricompensa”. In poche parole, c’è qualcosa che si desidera e il comportamento intelligente consiste nell’ottenere quanto più possibile. Ad esempio, se il tuo agente è un robot che gioca a basket, la sua ricompensa si presenta sotto forma di punti. Maggiore è il numero di cestelli realizzati dal robot, più punti ottiene e più intelligentemente si comporta. L’apprendimento del rinforzo è una soluzione matematica al modo in cui il robot imparerebbe ad acquisire sempre più punti.

Al centro dell’apprendimento rinforzato c’è quella che viene definita una “politica”. È il libro dei giochi del robot. Una politica dice, nell’astrazione matematica, “Questo è il posto in cui mi trovo adesso. Questo è quello che devo fare per massimizzare la mia ricompensa. “Nel basket, una buona politica potrebbe essere quella di prendere la palla, dribblarla verso il canestro e lanciarla in un lay-up. Ogni volta che il robot fa questo, guarda quanto è stata efficace nell’ottenere punti e regola il suo comportamento per fare meglio la prossima volta. Il robot potrebbe iniziare male, ma usando l’apprendimento di rinforzo potrebbe diventare migliore nel tempo. Questo è ciò che significa intelligenza qui – nel corso del tempo diventi sempre più bravo a raggiungere il tuo obiettivo.

L’idea potrebbe essere semplice, ma tutta la sfumatura nell’apprendimento rinforzato viene proprio da come apprendi quella politica. Ad esempio, è la migliore politica per guidare verso il canestro? O dovresti sederti e sparare ai maglioni? Come fai a sapere quale sarà la prossima volta? La stessa politica funzionerà contro un avversario diverso?

Esistono due strategie generali su come apprendere una politica. Il primo è chiamato on-policy . È la più semplice delle due strategie. On-policy significa che il robot usa le stesse informazioni per prendere decisioni e valutare se siano o meno decisioni buone. Se la sua politica dice di guidare verso il paniere e questo si traduce in molti punti, allora sarà più probabile che continui con quella stessa politica in futuro. La seconda strategia è definita off-policy . Ciò significa che il robot utilizza informazioni diverse per prendere decisioni rispetto a quelle che deve valutare. L’agente potrebbe prendere decisioni basate, ad esempio, sul suo tempo di possesso della palla. Poteva quindi guardare indietro al suo gioco basato su quella politica e vedere se concentrandosi su qualcos’altro effettivamente aumentato il suo numero di cestini alla fine.

In un primo momento, potrebbe sembrare che la strategia migliore sarà sempre on-policy. Come hai potuto ottenere più punti concentrandosi su qualcosa di totalmente irrilevante? Ma non è necessariamente vero. Il fatto empirico nella ricerca sull’intelligenza artificiale è che alcuni problemi vengono risolti meglio con metodi off-policy. A volte il modo migliore per raggiungere un obiettivo è indirettamente.

Questo è esattamente ciò che Mill discute sulla felicità. Il modo per massimizzare la tua felicità, per così dire, è mirare a qualcos’altro. Dedicati a qualcosa di più grande della tua stessa felicità. Lavora duro. Poi guarderai indietro e comprendi che hai accumulato felicità per tutto il tempo. Mill scrive,

“I piaceri della vita sono sufficienti per renderlo piacevole quando vengono presi in passer senza diventare un obiettivo principale. Una volta che li fai così, li sentirai immediatamente insufficienti. Non porteranno un esame scrutatore. Chiediti se sei felice e smetti di esserlo. L’unica possibilità è che tu abbia come scopo nella vita non la felicità ma qualcosa di esterno ad essa. Lascia che la tua autocoscienza, il tuo scrutinio, il tuo interrogatorio personale si esauriscano in quello; e se per caso sei fortunatamente circonstato inspirerai la felicità con l’aria che respiri, senza soffermarti su di essa o pensandoci, prevenendola nell’immaginazione, o mettendola in fuga con domande fatali “.

In altre parole, la strategia on-policy non funziona per la felicità. Se provi a massimizzare direttamente per questo, allora starai peggio di se avessi adottato un approccio diverso. La felicità è uno di quei problemi che funziona meglio con la strategia off-policy. Deve esserci una separazione tra azione e valutazione. Se stai usando la tua felicità come parametro per valutare la tua prossima decisione, lo scopo della tua preoccupazione non può superare i tuoi stessi sentimenti. Invece, sostiene Mill, concentrati su qualcosa di più grande di te e ti sveglierai un giorno per capire che respiri la felicità con l’aria che respiri .

Il motivo, quindi, che i miei genitori non mi hanno mai detto di perseguire direttamente la felicità è che essi, come Mill, credono in un approccio off-policy alla felicità. Quando qualcuno ti dice che dovresti “fare ciò che ti rende felice”, stanno sostenendo un approccio on-policy per prendere decisioni sulla felicità e valutarli con la stessa metrica. Questo è esattamente quello che i miei genitori non volevano che facessi. E mentre i miei genitori non hanno imparato questo dalla lettura di Mill, la cosa sorprendente di questa posizione sulla felicità è che è condivisa – in una versione o in un’altra – praticamente da ogni altro filosofo che ha affrontato la questione.

Uno dei miei preferiti di questi account appartiene a Bertrand Russell. Più o meno dice la stessa cosa di Mill, ma con un certo spirito di nonchalance in contrasto con la solenne leggerezza di Mill. Russell scrive in The Conquest of Happiness , “La felicità fondamentale dipende più di ogni altra cosa su ciò che può essere chiamato un interesse amichevole per le persone e le cose.” Continua, “lascia che i tuoi interessi siano il più ampi possibile e lascia che le tue reazioni alle cose e le persone che ti interessano devono essere il più possibile amichevoli anziché ostili. ”

La felicità, in altre parole, è il risultato naturale dell’osservazione che ci sono moltissime persone e cose nel mondo che meritano interesse amichevole, e solo una di esse è te stesso. È con questa idea in mente che voglio scrivere questo blog.

Riferimenti

Mill, JS (1873/2003). Autobiografia. Progetto Guternberg.

Russell, B. (1930). La conquista della felicità. New York, NY: Liveright Publishing Corp.