Skip to main navigation Skip to search Skip to main content

What's not to like(rt)? Differential item functioning and response styles as challenges to accurate measurement in item response theory

Research output: ThesisDoctoral Thesis

15 Downloads (Pure)

Abstract

Unobservable (latent) traits such as personality and intelligence shape our lives. Since these traits cannot be observed directly, social scientists typically rely on self-report questionnaires where a participant can indicate their degree of agreement to various questions to measure them. In the best case, these questionnaires give us a wealth of information on the inner workings of a person. Unfortunately, several issues may hinder the process of gaining accurate information via questionnaires. In this dissertation, we will address two of these challenges: differential item functioning (DIF) and response styles.

When DIF is present, participants with the same true underlying ability do not have the same probability of responding in a certain way due to their group membership. For example, it may occur that we are trying to measure math ability via a Dutch test. If one group of participants is less skilled at the Dutch language, they will be more likely to answer the math questions wrong, even if their math ability is equal to proficient Dutch speakers. Note that the presence of DIF is not merely an academic concern: it can and likely does lead to unfair outcomes with real-life consequences for disadvantaged participants, such as getting rejected for positions based on aptitude tests or failing classes after exams.

When response styles are present, some participants respond to questions (partially) independent of the question content. While many response styles exist, we focus on extreme response style and midpoint response style. If participants are high in extreme response style, they will respond extremely to e.g., an extraversion questionnaire, even if their true extraversion is better reflected by a midpoint answer. If a participant is high in midpoint response style, they will respond neutrally to the same extraversion questionnaire, even if their true personality is better reflected by an extreme answer. In this way, response styles have the potential to hide the true latent traits of participants.

Both response styles and DIF thus have the potential to distort the outcome of scientific and applied use of questionnaires. For this reason, this dissertation addresses both issues over the course of six chapters. In the first two chapters, we propose a new method of detecting DIF which is less reliant on untestable assumptions. In the next four chapters, we discuss various ways in which response styles can be modelled, how different ways of modelling response style can lead to different conclusions, how to best detect response styles, and how often response styles occur in practice. While DIF and response styles are anything but solved issues, the contents of this dissertation will hopefully lead to a more nuanced and thorough approach to these issues, improving the quality of measurement throughout the social sciences.

___

Onobserveerbare (latente) eigenschappen zoals persoonlijkheid en intelligentie hebben een grote invloed op ons leven. Aangezien deze eigenschappen niet direct geobserveerd kunnen worden, vertrouwen sociale wetenschappers vaak op vragenlijsten waar een participant zelf aan kan geven hoe eens of oneens ze het met stellingen zijn. In het beste geval geven deze vragenlijsten ons een grote hoeveelheid informatie over de belevingswereld van een persoon. Helaas zijn er ook verscheidene problemen die dit proces in de weg kunnen staan. In deze dissertatie bespreken we twee van deze problemen: “differential item functioning” (DIF) en responsstijlen.

Als er sprake is van DIF hebben verschillende deelnemers met dezelfde onderliggende vaardigheid niet dezelfde kans om op een bepaalde manier te reageren door de groep waar ze in vallen. Het zou bijvoorbeeld zo kunnen zijn dat we wiskundevaardigheid proberen te meten met een toets in het Nederlands. Als een groep van onze deelnemers minder vaardig is in het Nederlands zullen ze een lagere kans hebben om vragen goed te beantwoorden, zelfs als hun wiskundevaardigheid gelijk is aan een persoon in de groep die wel vaardig in het Nederlands is. Let op dat DIF niet alleen een probleem voor wetenschappers is: het leidt in de praktijk ook tot oneerlijke uitkomsten met echte gevolgen voor de benadeelden, zoals afgewezen worden voor banen op basis van een competentietoets, of zakken voor klassen na examens.

Als er sprake is van responsstijlen, beantwoorden sommige deelnemers vragen (deels) onafhankelijk van de inhoud van de vraag. Hoewel er veel responsstijlen bestaan, behandelt deze dissertatie extreme en milde responsstijl. Als deelnemers een hoge mate van extreme responsstijl hebben, zullen ze vaak extreem reageren op e.g., een extraversievragenlijst, zelfs als hun werkelijke extraversieniveau beter bij een neutraal antwoord zou passen. Het omgekeerde gaat op voor een participant met een hoge mate van milde responsstijl. Op deze manier kunnen responsstijlen de werkelijke eigenschappen van mensen dus verbergen.

Zowel responsstijlen als DIF hebben dus de potentie om de uitkomsten van wetenschappelijk en toegepast gebruik van vragenlijsten te vertroebelen. Om deze reden bespreken we deze uitdagingen in zes hoofdstukken van deze dissertatie. In de eerste twee hoofdstukken stellen we nieuwe methoden voor om DIF te detecteren die minder vertrouwen op niet-toetsbare aannames. In de volgende vier hoofdstukken bespreken we verschillende manieren om responsstijlen te modelleren, hoe verschillende modellen tot verschillende conclusies kunnen leiden, hoe responsstijlen het beste gedetecteerd kunnen worden, en hoe vaak responsstijlen optreden in de praktijk. Hoewel DIF en responsstijlen geen opgeloste zaken zijn, hopen we dat de inhoud van deze dissertatie gebruikt zal worden om met hogere kwaliteit te meten in de sociale wetenschappen.
Original languageEnglish
QualificationDoctor of Philosophy
Awarding Institution
  • Tilburg University
Supervisors/Advisors
  • Vermunt, Jeroen, Promotor
Award date8 May 2026
Publisher
Print ISBNs978-94-6534-177-4
DOIs
Publication statusPublished - 2026

Fingerprint

Dive into the research topics of 'What's not to like(rt)? Differential item functioning and response styles as challenges to accurate measurement in item response theory'. Together they form a unique fingerprint.

Cite this