Stereotype threat and differential item functioning: A critical assessment

Research output: ThesisDoctoral ThesisScientific

317 Downloads (Pure)

Abstract

Verslechteren de prestaties van meisjes of vrouwen op wiskundetoetsen als ze geconfronteerd worden met gender stereotypen? Deze vraag hebben psychologen in binnen- en buitenland de afgelopen twee decennia geprobeerd te beantwoorden m.b.v. experimenten. In deze experimenten wordt een groep leerlingen voorafgaand aan een wiskundetoets blootgesteld aan stereotype threat, in het Nederlands stereotype dreiging genoemd. Stereotype dreiging kan o.a. opgewekt worden door een tekst, zoals “jongens en meisjes presteren niet even goed op deze wiskundetoets”. In de controle conditie krijgt een tweede groep leerlingen deze tekst niet te lezen, of wordt de dreiging actief verwijderd: “jongens en meisjes presteren even goed op deze wiskundetoets”. Vrouwelijke leerlingen presteren vaak slechter op een wiskundetoets als ze blootgesteld zijn aan stereotype dreiging, terwijl mannelijke leerlingen hier geen last van hebben.
In mijn proefschrift bestuderen we stereotype threat literatuur en populaire onderzoeksmethoden met een kritische blik. Een kritische houding is essentieel vanwege problemen in psychologisch onderzoek die onderzoeksresultaten kunnen vertekenen, zoals publicatie bias (vertekening van een experimenteel effect door het selectief publiceren van onderzoeksuitkomsten waarin de hypothese van de onderzoeker bevestigd wordt), het gebrek aan repliceerbaarheid (bevestiging van dezelfde hypothese m.b.v. van een nieuwe studie) en het gebrek aan reproduceerbaarheid (door heranalyse van een bestaande dataset tot dezelfde conclusie komen als de oorspronkelijke onderzoekers). Daarnaast bestudeerden onderzoekers voorheen voornamelijk de invloed van stereotype dreiging op de gemiddelde prestatie op een wiskundetoets. Er kan echter veel informatie gewonnen worden door het vergelijken van groepsprestaties op specifieke wiskundeopgaven. Met statistische modellen bestuderen we of meisjes onder invloed van stereotype threat slechter of beter presteren op specifieke wiskundeopgaven dan meisjes in de controle conditie (gecontroleerd voor mate van bekwaamheid); we noemen dit ook wel het bestuderen van Differential Item Functioning (afk. DIF).
In hoofdstuk 2 van mijn proefschrift vatten we de bestaande stereotype threat experimenten op basis- en middelbare scholen wereldwijd samen m.b.v. een meta-analyse. We vinden een negatieve invloed van stereotype dreiging op toets resultaten van meisjes, al zijn de verschillen tussen de groepen klein. Daarnaast zijn er aanwijzingen voor een vertekening van de resultaten door publicatie bias. In hoofdstuk 3 beschrijven we onze grootschalige replicatiestudie op middelbare scholen, waaraan meer dan 2.000 leerlingen hebben deelgenomen. We vinden in deze studie geen bewijs voor een effect van stereotype dreiging op de wiskundeprestaties. In hoofdstuk 4 bestuderen we de rapportage van DIF analyses in 200 wetenschappelijke artikelen. We zien dat de details waarin DIF onderzoek beschreven wordt te wensen overlaat, waardoor de reproduceerbaarheid van dergelijke studies in het geding komt. Opvallend is dat onderzoekers die DIF bestuderen met verschillende statistische methoden soms sterk uiteenlopende resultaten vinden. Tot slot heranalyseren we in hoofdstuk 5 data van tien experimenten. We zien geen systematische verschillen in effecten voor moeilijke of makkelijke vragen. Het aantal opengelaten vragen is in sommige studies hoog, en reflecteert de sterke tijdsdruk die wordt opgelegd in stereotype threat onderzoek. We opperen de hypothese dat vrouwelijke leerlingen onder stereotype dreiging langzamer werken of eerder opgeven dan vrouwelijke leerlingen die geen stereotype dreiging ervaren. Een DIF analyse op onze eigen dataset laat geen verschillen tussen de groepen zien op specifieke opgaven. We adviseren onderzoekers en beleidsmedewerkers om stereotype threat onderzoek kritisch te bekijken. In de toekomst zijn systematische replicatiestudies gewenst.

Do gender stereotypes lead to performance decrement on math tests for girls or women? Psychologists across the world have tried to answer this question using experiments for the last two decades. In these experiments a group of students is exposed to stereotype threat before making a math test. Stereotype threat can be made salient in different ways, for instance by informing participants that “boys and girls do not perform equally well on this math test”. In a control condition a second group of students do not get to read this, or they are informed that “boys and girls perform equally well on this math test”. Female students often underperform on a math test when they are exposed to stereotype threat, while male students are not influenced.
In my dissertation we study stereotype threat literature and popular research methods with a critical eye. We need to be critical, because some problems in the psychological literature could have distorted research findings in the past, like publication bias (results are biased by selectively publishing studies with exciting results), and a lack of replicability (being able to replicate the findings of the original study by means of a new study) and reproducibility (coming to the same conclusions as the original researchers by reanalyzing the existing dataset). Moreover, stereotype threat researchers mostly study whether performance decrements on the math test occur on average scores. In my dissertation I go beyond averages, and study group differences caused by stereotype threat for specific math questions. With statistical models we study whether girls influenced by stereotype threat score lower on specific math questions than girls in the control condition (controlled for math ability), we call this Differential Item Functioning (DIF).
In Chapter 2 of my dissertation we summarize existing stereotype threat studies conducted in elementary, middle and high schools across the globe by means of a meta-analysis. We found a negative influence of stereotype threat on math performance, even though the differences between the groups were small. Tests for publication bias implied that the results are somewhat distorted due to selective publishing. In Chapter 3 we carried out a large stereotype threat replication study in Dutch high schools. More than 2,000 students participated in this study. We did not find evidence for a stereotype threat effect on math performance in this study. In Chapter 4 we study used DIF methods and reporting practices in 200 articles. We conclude that the amount of detail in reports on DIF analyses is often insufficient, which is problematic for reproducibility. It is striking that researchers who study DIF with multiple statistical methods, often find divergent results. Finally, in Chapter 5 we reanalyze data of 10 stereotype threat experiments. We found no systematic differences in stereotype threat effects for difficult or easy questions. The amount of unanswered math questions was high in some of the studies, which reflects the strong time pressure students had to work under. We suggest as alternative explanation for performance decrements that female students in the stereotype threat condition work slower or give up more easily than female students in the control condition. A DIF analysis on our own dataset does not show any differences in performance on specific items for the female students in the different experimental groups. We recommend researchers and policy makers to be critical when interpreting outcomes in stereotype threat and DIF literature. In the future, large scale systematic replication studies could answer many of the pending questions regarding the stereotype threat effect.
Original languageEnglish
QualificationDoctor of Philosophy
Supervisors/Advisors
  • Wicherts, Jelte, Promotor
  • Vermunt, Jeroen, Promotor
  • Agnoli, Franca, Member PhD commission, External person
  • Borsboom, Denny, Member PhD commission, External person
  • Oort, F.J., Member PhD commission, External person
  • De Roover, Kim, Member PhD commission
Award date7 Mar 2018
Place of PublicationEnschede
Publisher
Print ISBNs978-94-6233-880-7
Publication statusPublished - 2018

Fingerprint

stereotype
threat
female student
earning a doctorate
performance
trend
student
experiment

Cite this

@phdthesis{c8d3dfe89adf476ba6491931272cfffa,
title = "Stereotype threat and differential item functioning: A critical assessment",
abstract = "Verslechteren de prestaties van meisjes of vrouwen op wiskundetoetsen als ze geconfronteerd worden met gender stereotypen? Deze vraag hebben psychologen in binnen- en buitenland de afgelopen twee decennia geprobeerd te beantwoorden m.b.v. experimenten. In deze experimenten wordt een groep leerlingen voorafgaand aan een wiskundetoets blootgesteld aan stereotype threat, in het Nederlands stereotype dreiging genoemd. Stereotype dreiging kan o.a. opgewekt worden door een tekst, zoals “jongens en meisjes presteren niet even goed op deze wiskundetoets”. In de controle conditie krijgt een tweede groep leerlingen deze tekst niet te lezen, of wordt de dreiging actief verwijderd: “jongens en meisjes presteren even goed op deze wiskundetoets”. Vrouwelijke leerlingen presteren vaak slechter op een wiskundetoets als ze blootgesteld zijn aan stereotype dreiging, terwijl mannelijke leerlingen hier geen last van hebben. In mijn proefschrift bestuderen we stereotype threat literatuur en populaire onderzoeksmethoden met een kritische blik. Een kritische houding is essentieel vanwege problemen in psychologisch onderzoek die onderzoeksresultaten kunnen vertekenen, zoals publicatie bias (vertekening van een experimenteel effect door het selectief publiceren van onderzoeksuitkomsten waarin de hypothese van de onderzoeker bevestigd wordt), het gebrek aan repliceerbaarheid (bevestiging van dezelfde hypothese m.b.v. van een nieuwe studie) en het gebrek aan reproduceerbaarheid (door heranalyse van een bestaande dataset tot dezelfde conclusie komen als de oorspronkelijke onderzoekers). Daarnaast bestudeerden onderzoekers voorheen voornamelijk de invloed van stereotype dreiging op de gemiddelde prestatie op een wiskundetoets. Er kan echter veel informatie gewonnen worden door het vergelijken van groepsprestaties op specifieke wiskundeopgaven. Met statistische modellen bestuderen we of meisjes onder invloed van stereotype threat slechter of beter presteren op specifieke wiskundeopgaven dan meisjes in de controle conditie (gecontroleerd voor mate van bekwaamheid); we noemen dit ook wel het bestuderen van Differential Item Functioning (afk. DIF). In hoofdstuk 2 van mijn proefschrift vatten we de bestaande stereotype threat experimenten op basis- en middelbare scholen wereldwijd samen m.b.v. een meta-analyse. We vinden een negatieve invloed van stereotype dreiging op toets resultaten van meisjes, al zijn de verschillen tussen de groepen klein. Daarnaast zijn er aanwijzingen voor een vertekening van de resultaten door publicatie bias. In hoofdstuk 3 beschrijven we onze grootschalige replicatiestudie op middelbare scholen, waaraan meer dan 2.000 leerlingen hebben deelgenomen. We vinden in deze studie geen bewijs voor een effect van stereotype dreiging op de wiskundeprestaties. In hoofdstuk 4 bestuderen we de rapportage van DIF analyses in 200 wetenschappelijke artikelen. We zien dat de details waarin DIF onderzoek beschreven wordt te wensen overlaat, waardoor de reproduceerbaarheid van dergelijke studies in het geding komt. Opvallend is dat onderzoekers die DIF bestuderen met verschillende statistische methoden soms sterk uiteenlopende resultaten vinden. Tot slot heranalyseren we in hoofdstuk 5 data van tien experimenten. We zien geen systematische verschillen in effecten voor moeilijke of makkelijke vragen. Het aantal opengelaten vragen is in sommige studies hoog, en reflecteert de sterke tijdsdruk die wordt opgelegd in stereotype threat onderzoek. We opperen de hypothese dat vrouwelijke leerlingen onder stereotype dreiging langzamer werken of eerder opgeven dan vrouwelijke leerlingen die geen stereotype dreiging ervaren. Een DIF analyse op onze eigen dataset laat geen verschillen tussen de groepen zien op specifieke opgaven. We adviseren onderzoekers en beleidsmedewerkers om stereotype threat onderzoek kritisch te bekijken. In de toekomst zijn systematische replicatiestudies gewenst. Do gender stereotypes lead to performance decrement on math tests for girls or women? Psychologists across the world have tried to answer this question using experiments for the last two decades. In these experiments a group of students is exposed to stereotype threat before making a math test. Stereotype threat can be made salient in different ways, for instance by informing participants that “boys and girls do not perform equally well on this math test”. In a control condition a second group of students do not get to read this, or they are informed that “boys and girls perform equally well on this math test”. Female students often underperform on a math test when they are exposed to stereotype threat, while male students are not influenced. In my dissertation we study stereotype threat literature and popular research methods with a critical eye. We need to be critical, because some problems in the psychological literature could have distorted research findings in the past, like publication bias (results are biased by selectively publishing studies with exciting results), and a lack of replicability (being able to replicate the findings of the original study by means of a new study) and reproducibility (coming to the same conclusions as the original researchers by reanalyzing the existing dataset). Moreover, stereotype threat researchers mostly study whether performance decrements on the math test occur on average scores. In my dissertation I go beyond averages, and study group differences caused by stereotype threat for specific math questions. With statistical models we study whether girls influenced by stereotype threat score lower on specific math questions than girls in the control condition (controlled for math ability), we call this Differential Item Functioning (DIF). In Chapter 2 of my dissertation we summarize existing stereotype threat studies conducted in elementary, middle and high schools across the globe by means of a meta-analysis. We found a negative influence of stereotype threat on math performance, even though the differences between the groups were small. Tests for publication bias implied that the results are somewhat distorted due to selective publishing. In Chapter 3 we carried out a large stereotype threat replication study in Dutch high schools. More than 2,000 students participated in this study. We did not find evidence for a stereotype threat effect on math performance in this study. In Chapter 4 we study used DIF methods and reporting practices in 200 articles. We conclude that the amount of detail in reports on DIF analyses is often insufficient, which is problematic for reproducibility. It is striking that researchers who study DIF with multiple statistical methods, often find divergent results. Finally, in Chapter 5 we reanalyze data of 10 stereotype threat experiments. We found no systematic differences in stereotype threat effects for difficult or easy questions. The amount of unanswered math questions was high in some of the studies, which reflects the strong time pressure students had to work under. We suggest as alternative explanation for performance decrements that female students in the stereotype threat condition work slower or give up more easily than female students in the control condition. A DIF analysis on our own dataset does not show any differences in performance on specific items for the female students in the different experimental groups. We recommend researchers and policy makers to be critical when interpreting outcomes in stereotype threat and DIF literature. In the future, large scale systematic replication studies could answer many of the pending questions regarding the stereotype threat effect.",
author = "Paulette Flore",
year = "2018",
language = "English",
isbn = "978-94-6233-880-7",
publisher = "Gildeprint Drukkerijen",

}

Stereotype threat and differential item functioning : A critical assessment. / Flore, Paulette.

Enschede : Gildeprint Drukkerijen, 2018. 246 p.

Research output: ThesisDoctoral ThesisScientific

TY - THES

T1 - Stereotype threat and differential item functioning

T2 - A critical assessment

AU - Flore, Paulette

PY - 2018

Y1 - 2018

N2 - Verslechteren de prestaties van meisjes of vrouwen op wiskundetoetsen als ze geconfronteerd worden met gender stereotypen? Deze vraag hebben psychologen in binnen- en buitenland de afgelopen twee decennia geprobeerd te beantwoorden m.b.v. experimenten. In deze experimenten wordt een groep leerlingen voorafgaand aan een wiskundetoets blootgesteld aan stereotype threat, in het Nederlands stereotype dreiging genoemd. Stereotype dreiging kan o.a. opgewekt worden door een tekst, zoals “jongens en meisjes presteren niet even goed op deze wiskundetoets”. In de controle conditie krijgt een tweede groep leerlingen deze tekst niet te lezen, of wordt de dreiging actief verwijderd: “jongens en meisjes presteren even goed op deze wiskundetoets”. Vrouwelijke leerlingen presteren vaak slechter op een wiskundetoets als ze blootgesteld zijn aan stereotype dreiging, terwijl mannelijke leerlingen hier geen last van hebben. In mijn proefschrift bestuderen we stereotype threat literatuur en populaire onderzoeksmethoden met een kritische blik. Een kritische houding is essentieel vanwege problemen in psychologisch onderzoek die onderzoeksresultaten kunnen vertekenen, zoals publicatie bias (vertekening van een experimenteel effect door het selectief publiceren van onderzoeksuitkomsten waarin de hypothese van de onderzoeker bevestigd wordt), het gebrek aan repliceerbaarheid (bevestiging van dezelfde hypothese m.b.v. van een nieuwe studie) en het gebrek aan reproduceerbaarheid (door heranalyse van een bestaande dataset tot dezelfde conclusie komen als de oorspronkelijke onderzoekers). Daarnaast bestudeerden onderzoekers voorheen voornamelijk de invloed van stereotype dreiging op de gemiddelde prestatie op een wiskundetoets. Er kan echter veel informatie gewonnen worden door het vergelijken van groepsprestaties op specifieke wiskundeopgaven. Met statistische modellen bestuderen we of meisjes onder invloed van stereotype threat slechter of beter presteren op specifieke wiskundeopgaven dan meisjes in de controle conditie (gecontroleerd voor mate van bekwaamheid); we noemen dit ook wel het bestuderen van Differential Item Functioning (afk. DIF). In hoofdstuk 2 van mijn proefschrift vatten we de bestaande stereotype threat experimenten op basis- en middelbare scholen wereldwijd samen m.b.v. een meta-analyse. We vinden een negatieve invloed van stereotype dreiging op toets resultaten van meisjes, al zijn de verschillen tussen de groepen klein. Daarnaast zijn er aanwijzingen voor een vertekening van de resultaten door publicatie bias. In hoofdstuk 3 beschrijven we onze grootschalige replicatiestudie op middelbare scholen, waaraan meer dan 2.000 leerlingen hebben deelgenomen. We vinden in deze studie geen bewijs voor een effect van stereotype dreiging op de wiskundeprestaties. In hoofdstuk 4 bestuderen we de rapportage van DIF analyses in 200 wetenschappelijke artikelen. We zien dat de details waarin DIF onderzoek beschreven wordt te wensen overlaat, waardoor de reproduceerbaarheid van dergelijke studies in het geding komt. Opvallend is dat onderzoekers die DIF bestuderen met verschillende statistische methoden soms sterk uiteenlopende resultaten vinden. Tot slot heranalyseren we in hoofdstuk 5 data van tien experimenten. We zien geen systematische verschillen in effecten voor moeilijke of makkelijke vragen. Het aantal opengelaten vragen is in sommige studies hoog, en reflecteert de sterke tijdsdruk die wordt opgelegd in stereotype threat onderzoek. We opperen de hypothese dat vrouwelijke leerlingen onder stereotype dreiging langzamer werken of eerder opgeven dan vrouwelijke leerlingen die geen stereotype dreiging ervaren. Een DIF analyse op onze eigen dataset laat geen verschillen tussen de groepen zien op specifieke opgaven. We adviseren onderzoekers en beleidsmedewerkers om stereotype threat onderzoek kritisch te bekijken. In de toekomst zijn systematische replicatiestudies gewenst. Do gender stereotypes lead to performance decrement on math tests for girls or women? Psychologists across the world have tried to answer this question using experiments for the last two decades. In these experiments a group of students is exposed to stereotype threat before making a math test. Stereotype threat can be made salient in different ways, for instance by informing participants that “boys and girls do not perform equally well on this math test”. In a control condition a second group of students do not get to read this, or they are informed that “boys and girls perform equally well on this math test”. Female students often underperform on a math test when they are exposed to stereotype threat, while male students are not influenced. In my dissertation we study stereotype threat literature and popular research methods with a critical eye. We need to be critical, because some problems in the psychological literature could have distorted research findings in the past, like publication bias (results are biased by selectively publishing studies with exciting results), and a lack of replicability (being able to replicate the findings of the original study by means of a new study) and reproducibility (coming to the same conclusions as the original researchers by reanalyzing the existing dataset). Moreover, stereotype threat researchers mostly study whether performance decrements on the math test occur on average scores. In my dissertation I go beyond averages, and study group differences caused by stereotype threat for specific math questions. With statistical models we study whether girls influenced by stereotype threat score lower on specific math questions than girls in the control condition (controlled for math ability), we call this Differential Item Functioning (DIF). In Chapter 2 of my dissertation we summarize existing stereotype threat studies conducted in elementary, middle and high schools across the globe by means of a meta-analysis. We found a negative influence of stereotype threat on math performance, even though the differences between the groups were small. Tests for publication bias implied that the results are somewhat distorted due to selective publishing. In Chapter 3 we carried out a large stereotype threat replication study in Dutch high schools. More than 2,000 students participated in this study. We did not find evidence for a stereotype threat effect on math performance in this study. In Chapter 4 we study used DIF methods and reporting practices in 200 articles. We conclude that the amount of detail in reports on DIF analyses is often insufficient, which is problematic for reproducibility. It is striking that researchers who study DIF with multiple statistical methods, often find divergent results. Finally, in Chapter 5 we reanalyze data of 10 stereotype threat experiments. We found no systematic differences in stereotype threat effects for difficult or easy questions. The amount of unanswered math questions was high in some of the studies, which reflects the strong time pressure students had to work under. We suggest as alternative explanation for performance decrements that female students in the stereotype threat condition work slower or give up more easily than female students in the control condition. A DIF analysis on our own dataset does not show any differences in performance on specific items for the female students in the different experimental groups. We recommend researchers and policy makers to be critical when interpreting outcomes in stereotype threat and DIF literature. In the future, large scale systematic replication studies could answer many of the pending questions regarding the stereotype threat effect.

AB - Verslechteren de prestaties van meisjes of vrouwen op wiskundetoetsen als ze geconfronteerd worden met gender stereotypen? Deze vraag hebben psychologen in binnen- en buitenland de afgelopen twee decennia geprobeerd te beantwoorden m.b.v. experimenten. In deze experimenten wordt een groep leerlingen voorafgaand aan een wiskundetoets blootgesteld aan stereotype threat, in het Nederlands stereotype dreiging genoemd. Stereotype dreiging kan o.a. opgewekt worden door een tekst, zoals “jongens en meisjes presteren niet even goed op deze wiskundetoets”. In de controle conditie krijgt een tweede groep leerlingen deze tekst niet te lezen, of wordt de dreiging actief verwijderd: “jongens en meisjes presteren even goed op deze wiskundetoets”. Vrouwelijke leerlingen presteren vaak slechter op een wiskundetoets als ze blootgesteld zijn aan stereotype dreiging, terwijl mannelijke leerlingen hier geen last van hebben. In mijn proefschrift bestuderen we stereotype threat literatuur en populaire onderzoeksmethoden met een kritische blik. Een kritische houding is essentieel vanwege problemen in psychologisch onderzoek die onderzoeksresultaten kunnen vertekenen, zoals publicatie bias (vertekening van een experimenteel effect door het selectief publiceren van onderzoeksuitkomsten waarin de hypothese van de onderzoeker bevestigd wordt), het gebrek aan repliceerbaarheid (bevestiging van dezelfde hypothese m.b.v. van een nieuwe studie) en het gebrek aan reproduceerbaarheid (door heranalyse van een bestaande dataset tot dezelfde conclusie komen als de oorspronkelijke onderzoekers). Daarnaast bestudeerden onderzoekers voorheen voornamelijk de invloed van stereotype dreiging op de gemiddelde prestatie op een wiskundetoets. Er kan echter veel informatie gewonnen worden door het vergelijken van groepsprestaties op specifieke wiskundeopgaven. Met statistische modellen bestuderen we of meisjes onder invloed van stereotype threat slechter of beter presteren op specifieke wiskundeopgaven dan meisjes in de controle conditie (gecontroleerd voor mate van bekwaamheid); we noemen dit ook wel het bestuderen van Differential Item Functioning (afk. DIF). In hoofdstuk 2 van mijn proefschrift vatten we de bestaande stereotype threat experimenten op basis- en middelbare scholen wereldwijd samen m.b.v. een meta-analyse. We vinden een negatieve invloed van stereotype dreiging op toets resultaten van meisjes, al zijn de verschillen tussen de groepen klein. Daarnaast zijn er aanwijzingen voor een vertekening van de resultaten door publicatie bias. In hoofdstuk 3 beschrijven we onze grootschalige replicatiestudie op middelbare scholen, waaraan meer dan 2.000 leerlingen hebben deelgenomen. We vinden in deze studie geen bewijs voor een effect van stereotype dreiging op de wiskundeprestaties. In hoofdstuk 4 bestuderen we de rapportage van DIF analyses in 200 wetenschappelijke artikelen. We zien dat de details waarin DIF onderzoek beschreven wordt te wensen overlaat, waardoor de reproduceerbaarheid van dergelijke studies in het geding komt. Opvallend is dat onderzoekers die DIF bestuderen met verschillende statistische methoden soms sterk uiteenlopende resultaten vinden. Tot slot heranalyseren we in hoofdstuk 5 data van tien experimenten. We zien geen systematische verschillen in effecten voor moeilijke of makkelijke vragen. Het aantal opengelaten vragen is in sommige studies hoog, en reflecteert de sterke tijdsdruk die wordt opgelegd in stereotype threat onderzoek. We opperen de hypothese dat vrouwelijke leerlingen onder stereotype dreiging langzamer werken of eerder opgeven dan vrouwelijke leerlingen die geen stereotype dreiging ervaren. Een DIF analyse op onze eigen dataset laat geen verschillen tussen de groepen zien op specifieke opgaven. We adviseren onderzoekers en beleidsmedewerkers om stereotype threat onderzoek kritisch te bekijken. In de toekomst zijn systematische replicatiestudies gewenst. Do gender stereotypes lead to performance decrement on math tests for girls or women? Psychologists across the world have tried to answer this question using experiments for the last two decades. In these experiments a group of students is exposed to stereotype threat before making a math test. Stereotype threat can be made salient in different ways, for instance by informing participants that “boys and girls do not perform equally well on this math test”. In a control condition a second group of students do not get to read this, or they are informed that “boys and girls perform equally well on this math test”. Female students often underperform on a math test when they are exposed to stereotype threat, while male students are not influenced. In my dissertation we study stereotype threat literature and popular research methods with a critical eye. We need to be critical, because some problems in the psychological literature could have distorted research findings in the past, like publication bias (results are biased by selectively publishing studies with exciting results), and a lack of replicability (being able to replicate the findings of the original study by means of a new study) and reproducibility (coming to the same conclusions as the original researchers by reanalyzing the existing dataset). Moreover, stereotype threat researchers mostly study whether performance decrements on the math test occur on average scores. In my dissertation I go beyond averages, and study group differences caused by stereotype threat for specific math questions. With statistical models we study whether girls influenced by stereotype threat score lower on specific math questions than girls in the control condition (controlled for math ability), we call this Differential Item Functioning (DIF). In Chapter 2 of my dissertation we summarize existing stereotype threat studies conducted in elementary, middle and high schools across the globe by means of a meta-analysis. We found a negative influence of stereotype threat on math performance, even though the differences between the groups were small. Tests for publication bias implied that the results are somewhat distorted due to selective publishing. In Chapter 3 we carried out a large stereotype threat replication study in Dutch high schools. More than 2,000 students participated in this study. We did not find evidence for a stereotype threat effect on math performance in this study. In Chapter 4 we study used DIF methods and reporting practices in 200 articles. We conclude that the amount of detail in reports on DIF analyses is often insufficient, which is problematic for reproducibility. It is striking that researchers who study DIF with multiple statistical methods, often find divergent results. Finally, in Chapter 5 we reanalyze data of 10 stereotype threat experiments. We found no systematic differences in stereotype threat effects for difficult or easy questions. The amount of unanswered math questions was high in some of the studies, which reflects the strong time pressure students had to work under. We suggest as alternative explanation for performance decrements that female students in the stereotype threat condition work slower or give up more easily than female students in the control condition. A DIF analysis on our own dataset does not show any differences in performance on specific items for the female students in the different experimental groups. We recommend researchers and policy makers to be critical when interpreting outcomes in stereotype threat and DIF literature. In the future, large scale systematic replication studies could answer many of the pending questions regarding the stereotype threat effect.

M3 - Doctoral Thesis

SN - 978-94-6233-880-7

PB - Gildeprint Drukkerijen

CY - Enschede

ER -