Sessismo, test e "abilità accademica"

Quando stavo insegnando il mio corso universitario di psicologia evolutiva, il mio approccio al test e alla valutazione era unico. Puoi leggere su questa filosofia in maggior dettaglio qui, ma il succo del mio metodo è stato specificamente quello di evitare formati a scelta multipla a favore di domande a breve durata con capacità di revisione illimitata da parte degli studenti. Ho preferito questo formato dell'esame per una serie di motivi, il principale dei quali era che (a) non ritenevo che i test a scelta multipla fossero molto bravi a valutare quanto bene gli studenti capissero il materiale (memorizzazione e buona congettura non hanno eguale comprensione), e (b) Non mi importava molto di classificare i miei studenti tanto quanto mi preoccupava di farli imparare il materiale. Se non l'hanno afferrato correttamente al loro primo tentativo (e pochissimi studenti lo fanno), volevo che avessero l'abilità e la motivazione per continuare ad impegnarsi con esso fino a quando non lo hanno fatto bene (cosa che alla fine ha fatto, la media della classe per ogni esame è iniziato intorno a 70 e salì a 90). Ai fini della discussione di oggi, il punto importante qui è che i miei esami sono stati un po 'più cognitivamente stimolanti del solito e, secondo un nuovo articolo, significa che ho involontariamente polarizzato i miei esami in modi che sfidano "gruppi storicamente sottovalutati" come donne e poveri.

Flickr/getradwithbrad
Spiacenti …
Fonte: Flickr / getradwithbrad

Ciò che attirò la mia attenzione su questo particolare articolo, tuttavia, fu il comunicato stampa iniziale che lo accompagnò. Nello specifico, gli autori hanno detto che qualcosa ho trovato, beh, un po 'strano:

"A prima vista, si potrebbe presumere che le differenze nelle prestazioni degli esami siano basate sulla capacità accademica. Tuttavia, abbiamo controllato per questo nel nostro studio includendo le medie in entrata dei voti degli studenti nelle nostre analisi "

Quindi gli autori sembrano ritenere che una lacuna nelle prestazioni dei test accademici sia indipendente dalle capacità accademiche (a prescindere da quelle che comportano). Questo mi fece sorgere nella mia mente la domanda immediata su come uno sa che le abilità sono le stesse a meno che non si abbia un metodo per testarle. Sembra un po 'strano dire che le abilità sono le stesse sulla base di un set di test (quelli che hanno fornito GPA in arrivo), ma poi continuare a suggerire che le abilità sono le stesse quando un diverso set di test fornisce un risultato contrario. Nell'interesse di sistemare la mia curiosità, ho rintracciato il foglio per vedere cosa è stato effettivamente riportato; dopotutto, queste piccole notizie spesso sbagliano i dettagli. Sfortunatamente, questo è apparso per catturare le idee dell'autore in modo accurato.

Quindi iniziamo esaminando brevemente ciò che gli autori stavano guardando. Il documento, di Wright et al (2016), si basa su dati raccolti da tre anni di tre corsi introduttivi di biologia che coprono 26 diversi istruttori, circa 5.000 studenti e 87 diversi esami. Senza entrare troppo nel dettaglio inutile, i test sono stati valutati da valutatori indipendenti per il modo in cui erano cognitivamente stimolanti, il loro formato e gli studenti sono stati classificati in base al loro genere e allo status socio-economico (SES, misurato in base alla loro idoneità per un programma di aiuti finanziari). Al fine di tentare e controllare le abilità accademiche, Wright et al (2016) hanno anche esaminato il GPA di primo anno degli studenti che hanno frequentato le lezioni di biologia (basato su circa 45 crediti, ci viene detto). Poiché gli autori controllano il GPA in arrivo, sperano di persuadere il lettore di quanto segue:

Ciò implica che, con almeno una misura, questi studenti hanno pari capacità accademiche e, se hanno esiti differenziali sugli esami, è probabile che fattori diversi dall'abilità influenzino le loro prestazioni.

Ora si potrebbe sostenere che c'è di più nell'abilità accademica di quanto non sia catturato da un GPA – che è proprio il motivo per cui lo farò in un minuto – ma continuiamo con ciò che gli autori hanno trovato per primi.

I test di sfida cognitiva erano davvero, beh, più impegnativi. Per esempio, uno studente maschio statisticamente medio dovrebbe fare circa il 12% in più del test più impegnativo nel suo campione, rispetto a quello più facile. Tuttavia, questo effetto non era lo stesso tra i sessi. Ancora una volta, utilizzando uomini e donne statisticamente medi, quando i test erano meno problematici dal punto di vista cognitivo, non vi era in effetti alcun divario prestazionale (circa una differenza atteso dell'1,7% a favore degli uomini); tuttavia, quando i test sono stati il ​​più avvincente dal punto di vista cognitivo, il divario previsto è salito a una sorprendente previsione … differenza del 3,2%. Quindi, mentre la differenza di genere era quasi raddoppiata, in termini di importanza reale in ogni senso pratico, la sua dimensione era tale che probabilmente non sarebbe stata notata a meno che non la si stesse davvero cercando. Un modello simile è stato scoperto per SES: quando i test erano facili, non c'era alcuna differenza tra quelli bassi o alti in SES (1,3% a favore di quelli più alti); tuttavia, quando i test erano al massimo sfidanti, questa differenza attesa saliva a circa il 3,5%.

Flickr/Landon
Utile sia per individuare i blip statistici che per bruciare gli insetti
Fonte: Flickr / Landon

C'è molto da dire su questi risultati e su come sono inquadrati all'interno del documento. Innanzitutto, come ho detto, sono davvero delle piccole differenze; ci sono pochissimi casi in cui una differenza dell'1-3% nei punteggi dei test sta per rendere o interrompere uno studente, quindi non penso ci sia alcun motivo reale per preoccuparsi o per regolare i test; non praticamente, comunque.

Tuttavia, vi sono questioni più ampie e teoriche che incombono sulla carta. Uno di questi è che gli autori usano la frase "controllata per abilità accademica" così spesso che un lettore potrebbe effettivamente arrivare a credere che è ciò che hanno fatto dalla semplice ripetizione. Il problema qui, naturalmente, è che gli autori non hanno controllato per quello ; hanno controllato per GPA. Sfortunatamente per la presentazione di Wright e altri (2016), queste due cose non sono sinonimi. Come ho detto prima, è strano affermare che l'abilità accademica è la stessa perché una serie di test (GPA in entrata) dice che lo sono mentre un altro non lo fa. La precedente serie di test sembra essere privilegiata senza motivo valido. A causa di questa interpretazione ingiustificata, gli autori perdono (o piuttosto rimuovono intenzionalmente) la capacità di parlare di come queste lacune potrebbero essere dovute a qualche differenza di prestazioni. Questa è un'utile mossa retorica se si è interessati a fare advocacy – poiché implica che il divario è ingiusto e dovrebbe essere risolto in qualche modo – ma non se si cerca la verità della questione.

Un altro aspetto piuttosto importante del documento è che, per quanto ho potuto dire, gli autori hanno predetto che avrebbero trovato questi effetti senza mai fornire una spiegazione sul modo o sul perché tale predizione si è presentata. Cioè, cosa spinse le loro aspettative che gli uomini avrebbero sovraperformato le donne e i ricchi avrebbero sovraperformato i poveri? Questo finisce per essere qualcosa di un problema perché, alla fine del documento, gli autori fanno galleggiare alcune possibili spiegazioni (non testate) per i loro risultati. La prima di queste è una minaccia stereotipata: l'idea che alcuni gruppi di persone si comportino male nei test a causa di alcuni stereotipi negativi sulle loro prestazioni. Questo è un dato inadeguato per i dati per due ragioni: in primo luogo, mentre Wright e altri (2016) sostengono che lo stereotipo è "ben documentato", in realtà non riesce a replicare (oltre a non avere un senso molto teorico). In secondo luogo, anche se fosse una cosa reale, la minaccia stereotipata, come tipicamente studiato, richiede che il proprio sesso sia reso saliente prima del test. Poiché durante tutta la mia esperienza universitaria ho riscontrato un totale di zero test che hanno reso il mio genere saliente, molto meno il mio SES, posso solo supporre che anche i test in questione non lo abbiano fatto. Affinché la minaccia stereotipata funzioni come una spiegazione, quindi, le donne ei poveri dovrebbero essere sottoposti a una costante e stereotipata minaccia. A sua volta, ciò renderebbe la documentazione e la minaccia dello stereotipo degli studenti in primo luogo piuttosto difficile, in quanto non si potrebbe mai avere una condizione in cui i soggetti non lo stavano vivendo. In breve, quindi, la minaccia dello stereotipo sembra una brutta situazione.

Le altre spiegazioni presentate per questa differenza di genere sono la possibilità che le donne e gli studenti poveri abbiano una visione più fissa dell'intelligenza anziché delle mentalità di crescita, quindi si ritirano dal materiale quando vengono sfidati anziché migliorare (cioè, "dobbiamo cambiare i loro mentalità per chiudere questo scoraggiante gap del 2%), o la possibilità che le domande del test vengano scritte in modo tale da pregiudicare la capacità delle persone di pensarle (l'esempio che gli autori sollevano è che una domanda scritta sull'applicazione di alcuni concetti allo sport potrebbe favorire uomini, rispetto alle donne, in quanto gli uomini tendono a praticare più sport). Dato che gli autori hanno avuto accesso alle domande del test, sembra che avrebbero potuto esaminare quest'ultima possibilità in almeno alcuni dettagli (in minima parte, forse, osservando se i test scritti da istruttori femminili hanno prodotto esiti diversi da quelli scritti dal maschio quelli, o esaminando il contenuto delle domande stesse per vedere se le donne facevano di peggio su quelle di genere). Perché non hanno condotto tali analisi, non posso dire.

Flickr/Stephen Downes
Forse era troppo lavoro e mancava una mentalità di crescita
Fonte: Flickr / Stephen Downes

In sintesi, queste differenze medie molto piccole che sono state scoperte potrebbero facilmente essere colte – molto semplicemente – per GPA non essere una misura completa della capacità accademica di uno studente. Infatti, se i test che determinano la matricola GPA non sono il più avvincente dal punto di vista cognitivo (come ci si potrebbe aspettare, dato che gli studenti avrebbero seguito per lo più corsi introduttivi generali con classi di grandi dimensioni), questo potrebbe far sembrare gli studenti più simili nelle abilità di quanto non fossero in realtà. La questione può essere pensata usando questo esempio stereotipato-maschile (che sicuramente ostacolerà la capacità delle donne di pensarci su): immagino di aver provato le persone in una stanza con pesi che vanno da 1 a 15 sterline e ho chiesto loro di arricciarsi ogni volta. Ciò mi darebbe uno scarso senso per eventuali differenze di forza sottostanti perché la gamma di abilità testate era limitata. Se dovessi chiedere loro di fare lo stesso con pesi che vanno da 1 a 100 sterline la prossima settimana, potrei concludere che si tratta di qualcosa sui pesi – e non sulle abilità delle persone – quando si tratta di capire perché le differenze sono emerse all'improvviso erroneamente credo che ho già controllato per le loro abilità la prima volta).

Ora non so se una cosa del genere sia effettivamente responsabile, ma se i test che determinano la matricola GPA stavano utilizzando lo stesso tipo di abilità con gli stessi livelli dei corsi di biologia studiati, allora il controllo per GPA avrebbe dovuto occuparsi di quello potenziale problema. Dal momento che il controllo per GPA non ha funzionato, mi sento sicuro assumendo che ci siano alcune differenze nei test in termini di quali abilità stanno misurando.

Riferimenti: Wright, C., Eddy, S., Wenderoth, M., Abshire, E., Blankenbiller, M., & Brownell, S. (2016). La difficoltà cognitiva e il formato degli esami predicono le differenze di genere e socioeconomiche nelle prestazioni degli esami degli studenti nei corsi introduttivi di biologia. Life Science Education, 15 anni.