Dove il condizionamento operazionale è andato storto

Il condizionamento operativo è il nome di BF Skinner per l'apprendimento strumentale: l'apprendimento dalle conseguenze. Non è una nuova idea, ovviamente. L'umanità ha sempre saputo insegnare ai bambini e agli animali attraverso la ricompensa e la punizione. Ciò che diede l'etichetta di Skinner al limite fu la sua invenzione di un metodo brillante per studiare questo tipo di apprendimento nei singoli organismi. La scatola Skinner e il registratore cumulativo erano una coppia imbattibile.

JS image
Fonte: immagine JS

Il condizionamento operante è avanzato rapidamente all'inizio. La scoperta di schemi di rinforzo ha rivelato regolarità insospettate. Ogni nuovo programma di rinforzo ha prodotto un nuovo modello di record cumulativo: la "scaloppina" a intervalli fissi, risposta costante all'intervallo variabile e interruzione di corsa su programmi a tasso fisso. I modelli erano affidabili e potrebbero essere recuperati dopo che l'organismo è stato passato a una nuova procedura. I dati hanno consentito il pieno sfruttamento del metodo sperimentale all'interno dell'organismo: confrontare il comportamento di un singolo animale esposto in modo reversibile a due procedure diverse, piuttosto che confrontare due gruppi di animali. I risultati di gruppo si applicano ai gruppi; possono o meno essere applicabili agli individui che costituiscono un gruppo. Nel 2016, il 52% dei britannici ha approvato Brexit; ma ogni individuo era al 100% o al 100% contro. Troppo spesso i ricercatori hanno ipotizzato che i dati di gruppo che mostrano una curva di apprendimento senza intoppi significhi che anche i singoli soggetti apprendano gradualmente. Loro non.

Il naturale passo successivo sarebbe stato quello di svelare i processi dietro l'ordine rivelato da record cumulativi. Che cosa sta succedendo in questa interazione tra la procedura di programmazione e l'organismo individuale che dà origine a queste sorprendenti regolarità? In altre parole, qual è l'apprendimento dell'organismo e come sta imparando? Qual è il processo?

Il campo non ha compiuto questo passo. In questa nota cercherò di spiegare perché.

Tre cose hanno impedito che il condizionamento operante si sviluppasse come scienza: una limitazione del metodo, un eccesso di valutazione dell'ordine e una sfiducia nella teoria.

Il metodo. Il record cumulativo è stato un fantastico passo in avanti da un punto di vista: ha permesso lo studio del comportamento di un singolo animale da studiare in tempo reale. Fino a Skinner, i dati della psicologia animale consistevano in gran parte delle medie di gruppo: quanti animali nel gruppo X o Y si erano rivolti a sinistra o destra nel labirinto, per esempio. Non solo i singoli animali sono stati persi nel gruppo, così come i tempi effettivi – quanto tempo ha impiegato il topo nel labirinto per decidere, quanto è veloce correre? Cosa ha esplorato prima di decidere?

Ma anche l'impostazione di Skinner-box è limitata – a una o poche risposte predefinite e alle variazioni nella loro frequenza di occorrenza. Il condizionamento operativo comporta infatti la selezione di un repertorio di attività: il tentativo di prova ed errore. Il metodo Skinner-box incoraggia lo studio di solo una o due risposte già apprese. Del repertorio, quell'insieme di possibili risposte emesse (nelle parole di Skinner) "per altri motivi" – di tutte quelle possibili modalità di comportamento che si nascondono sotto la soglia ma disponibili per essere selezionate – di quelle risposte segrete , così essenziali per l'apprendimento strumentale, c'è nessuna menzione.

Troppo ordine? Il secondo problema è un rispetto non esaminato per i dati ordinati: curve morbide che potrebbero misurare semplici proprietà ateoriche del comportamento. Fred Skinner citava spesso Pavlov: "controlla le tue condizioni e vedrai l'ordine." Ma ordine in che cosa? Vale la pena prendere qualsiasi ordine? O alcuni risultati ordinati sono forse più informativi di altri?

Il modo più semplice per ottenere l'ordine, per ridurre la variazione, è di prendere una media . Gli esperimenti Skinneriani coinvolgono singoli animali, quindi il metodo scoraggia la mediazione tra gli animali. Ma perché non media tutti quei bacini o presse a leva? Skinner stesso sembrava fornire una spiegazione logica. In una delle sue poche escursioni teoriche, ha proposto che le risposte abbiano una forza equivalente alla probabilità di risposta . Non ha mai veramente giustificato l'idea, ma è così plausibile che sembra necessaria una piccola giustificazione.

Il passo successivo è stato cruciale: come misurare la probabilità di risposta? Il tasso di risposta è un candidato ovvio. Ma i record cumulativi mostrano che il tasso di risposta varia di momento in momento nella maggior parte dei programmi di rinforzo. Ad intervalli fissi, ad esempio, i soggetti smettono di rispondere subito dopo ogni rinforzo e quindi accelerano lentamente fino a un massimo, man mano che si avvicina il momento del prossimo rinforzo. Una pianificazione a intervallo fisso (FI) dispone che la prima risposta dopo un tempo prefissato, chiamandola I , sia rinforzata. Il tempo di post-rinforzo è uno spunto affidabile per quando sarà disponibile il prossimo premio. Gli organismi si adattano di conseguenza, aspettando una frazione fissa di tempo prima di iniziare a rispondere.

Ma su un altro programma, a intervallo variabile (VI), il tempo è variabile. Se è completamente casuale da un momento all'altro e l'organismo risponde a un ritmo costante, il tempo di postreinforcement non fornisce informazioni sulla probabilità che la prossima risposta venga premiata. Gli organismi si adattano alla mancanza di informazioni rispondendo a una velocità invariabile su programmi a intervallo variabile. Questa proprietà di VI lo ha reso uno strumento ovvio. Il tasso di risposta costante che produce sembrava fornire un modo semplice per misurare la forza di risposta di Skinner. Quindi, il dato più ampiamente usato nella psicologia operante è il tasso di risposta sostenuto da un programma VI. La frequenza viene solitamente misurata dal numero di risposte che si verificano in un periodo di tempo di minuti o ore.

Un altro modo per ridurre la variabilità è il feedback negativo. Un sistema HVAC controllato termostaticamente si riscalda quando la temperatura interna scende al di sotto di un livello preimpostato e si raffredda quando sale sopra. In questo modo riduce la variazione della temperatura della casa che altrimenti si verificherebbe al variare della temperatura esterna. Qualsiasi tipo di feedback negativo ridurrà la variazione nella variabile controllata. Sfortunatamente, più il feedback è efficace, meno la variazione nella variabile dipendente e meno possiamo imparare sul meccanismo di feedback stesso. Un processo di feedback negativo perfetto è invisibile.

Il condizionamento operativo, per definizione, implica un feedback poiché la ricompensa ricevuta dipende dalle risposte fatte. Più l'organismo risponde, maggiore è la ricompensa che ottiene – soggetto ai vincoli di qualunque programma di rinforzo è in vigore. Questo è un feedback positivo. Ma la procedura di scelta operant più studiata – il programma a intervalli variabili simultanei – comporta anche un feedback negativo . Quando la scelta è tra due programmi a intervallo variabile, maggiore è il tempo impiegato per una scelta, maggiore è la probabilità di vincita per il passaggio all'altro. Quindi, a prescindere dalla differenza nelle percentuali di vincita per le scelte, l'organismo non si fisserà mai solo su uno. Il risultato è una relazione molto regolare tra la preferenza di scelta e il relativo payoff – la legge corrispondente . (Per la storia tecnica completa, consulta Adaptive Behavior and Learning, 2016)

Con l'avanzare della tecnologia, queste due cose convergevano: il desiderio di ordine, abilitato dalla media e il feedback negativo, e l'idea di Skinner che la probabilità di risposta fosse appropriata – la variabile dipendente-appropriata. I programmi a intervalli variabili, singolarmente o in situazioni a scelta due, sono diventati una sorta di dispositivo di misurazione. Il tasso di risposta su VI è costante: niente attese, pause o improvvisi picchi. Sembrava offrire un modo semplice e diretto per misurare la probabilità di risposta. Dal tasso di risposta come probabilità di risposta all'idea teorica di velocità in quanto in qualche modo equivalente alla forza di risposta era solo un breve passo. La legge sulla corrispondenza venne quindi considerata come un principio generale. I ricercatori hanno cominciato a vederlo come una base non solo per la scelta degli animali, ma anche per il comportamento di scelta degli esseri umani nelle situazioni di vita reale.

La forza della risposta della teoria è un costrutto teorico. Va ben al di là del tasso di risposta o di qualsiasi altra quantità direttamente misurabile. Sfortunatamente, molte persone pensano di sapere cosa significano per "forza". La tradizione Skinneriana rendeva difficile vedere che ne era necessario di più.

Uno studio storico del 1961 di George Reynolds illustra il problema (anche se George non l'ha mai visto in questo modo). Ecco una versione semplificata: immagina due condizioni sperimentali e due piccioni identici. Ogni condizione viene eseguita per diverse sessioni giornaliere. Nella condizione A, piccione A becca una chiave rossa per ricompensa alimentare consegnata su un programma di VI 30-s. Nella condizione B, il piccione B becca una chiave verde per la ricompensa alimentare consegnata su un programma di VI 15 s. Poiché entrambi i tassi di cibo sono relativamente alti, dopo una lunga esposizione alla procedura, i piccioni punteranno ad un tasso elevato in entrambi i casi: i tassi di risposta – da qui i "punti di forza" – saranno più o meno gli stessi. Adesso cambia la procedura per entrambi i piccioni. Invece di una singola pianificazione, due programmi si alternano, per un minuto ciascuno, in una sessione sperimentale di un'ora. Il secondo programma aggiunto è lo stesso per entrambi i piccioni: VI 15 s, segnalato da un tasto giallo (alternando due programmi segnalati in questo modo è chiamato un programma multiplo). Quindi, il piccione A è su un mult VI 30 VI 15 (stimoli rossi e gialli) e il piccione B su un mult VI 15 VI 15 (stimoli verdi e gialli). In sintesi, le due condizioni sperimentali sono (colori stimolo in ()):

Esperimento A: VI 30 (rosso); mult VI 30 (rosso) VI 15 (giallo)

Esperimento B: VI 15 (verde); mult VI 15 (Verde) VI 15 (Giallo)

Ora guarda la seconda condizione per ogni piccione. Non sorprende che il tasso di risposta di B in verde non cambierà. Tutto ciò che è cambiato per lui è il colore chiave: dal verde sempre al verde e al giallo alternati, entrambi con lo stesso payoff. Ma il tasso di risposta di A in rosso, lo stimolo VI 30, sarà molto depresso, e il tasso di risposta in giallo per A sarà considerevolmente più alto del tasso di risposta gialla di B, anche se il programma VI 15-s è lo stesso in entrambi. L'effetto sulla risposta nello stimolo giallo da parte del piccione A, un aumento del tasso di risposta quando un dato programma è alternato con uno più snello, è chiamato contrasto comportamentale positivo e la diminuzione del tasso nel programma più snello per il piccione A è il contrasto negativo.

Rispondere con E B in presenza degli stimoli rosso e verde nella prima condizione è molto simile e quindi dovrebbe essere la forza delle due risposte. Ma l'effetto molto diverso dell'aggiunta dello stimolo giallo alternativo, ripagato sul programma più ricco, sui due animali nella seconda condizione mostra che non lo è.

Il consenso sul fatto che il tasso di risposta sia una misura adeguata della "forza" di una risposta operante è errato. Il tasso costante mantenuto dai programmi VI è fuorviante. Sembra una semplice misura di forza. A causa dell'enfasi sull'ordine di Skinner, poiché la pianificazione di intervalli variabili variabili a risposta media e feedback-ricca sembrava fornirla e poiché era facile equiparare la probabilità di risposta con il tasso di risposta, l'idea si radicò. Eppure, anche negli anni Cinquanta, era noto che il tasso di risposta può essere manipolato – per esempio dai cosiddetti programmi DRL (Differential Reinforcement-of-Low-Rate).

Conclusione Due fattori – il metodo di un singolo organismo Skinner e il desiderio di ordine – hanno contribuito a dare al tasso di risposta un ruolo primario nel condizionamento operante. Si è ipotizzato che il tasso fosse una misura della forza di risposta. Ma un terzo fattore, il disprezzo per la teoria, significava che questo collegamento non era mai stato molto studiato. È ovviamente falso: il tasso di risposta non equivale alla forza di risposta. In effetti, il concetto di forza è esso stesso mal definito. Quindi, l'enfasi del campo sul tasso di risposta come la variabile dipendente è probabilmente un errore. Se l'idea di forza è di sopravvivere alla scomparsa del tasso come misura migliore, è necessario qualcosa di più: una teoria sui fattori che controllano una risposta operante. Ma poiché Skinner aveva proclamato con successo che le teorie dell'apprendimento non sono necessarie , una teoria adeguata non era disponibile per molti anni (vedi The New Behaviorism, 2014, per ulteriori informazioni sulla storia della teoria di Skinner).