Behind the scenes of pairwise comparison for educational measurement

E.A.V. Crompvoets*

*Corresponding author for this work

Research output: ThesisDoctoral Thesis

16 Downloads (Pure)

Abstract

Imagine that two children made a drawing, but you only have one spot for the most creative drawing. You look at both drawings and decide which of the two drawings you find most creative. When doing so, you perform a pairwise comparison. You compare a pair of objects (drawings) on an attribute (creativity) and judge which object shows most of the attribute. The method pairwise comparison uses multiple comparisons like this of objects with respect to the same attribute from raters to obtain a rank order of the objects in this attribute, for example, a rank order of drawings from least to most creative. This intuitive method is increasingly used in education for measurement of abstract attributes such as creativity. Unfortunately, many comparisons are required to obtain a reliable measurement. This dissertation contains two algorithms with the aim of decreasing the number of required comparisons for reliable measurement. Furthermore, I investigated the requirements to obtain an accurate estimate of the measurement reliability. Two conditions are: 1) there needs to be sufficient variation among the objects with respect to the attribute, and 2) a sufficient number of comparisons is required, with 41 comparisons per object as a general guideline. Lastly, I developed a model to define the relative difficulty of two tests using pairwise comparisons from experts, such that the difficulty of the test does not influence your score, for example, for the exams of the same course for two different years. Taking everything together, I conclude that pairwise comparison can be valuable for educational measurement, but that we need a framework to use it well.

___

Stel: twee kinderen hebben een tekening gemaakt en je hebt één plek voor de creatiefste tekening. Je bekijkt de tekeningen en kiest welke van de twee je creatiever vindt. Als je dit doet, voer je een paarsgewijze vergelijking uit. Je beoordeelt een paar objecten (tekeningen) op een eigenschap (creativiteit) en bepaalt welk object het meest van die eigenschap laat zien. De methode paarsgewijs vergelijken gebruikt veel van dit soort vergelijkingen van objecten op dezelfde eigenschap door beoordelaars om een rangorde te krijgen van de objecten op deze eigenschap, bijvoorbeeld een rangorde van tekeningen van minst naar meest creatief. Deze intuïtieve methode wordt steeds vaker in het onderwijs gebruikt om abstracte vaardigheden, zoals creativiteit, te meten. Helaas zijn er veel vergelijkingen nodig om een betrouwbare meting te krijgen. In dit proefschrift staan twee algoritmes die als doel hebben het aantal vergelijkingen dat nodig is voor een betrouwbare meting omlaag te brengen. Daarnaast heb ik onderzocht wat er nodig is om een goede schatting te krijgen hoe betrouwbaar de meting is. Twee voorwaarden zijn: 1) de verschillen van objecten met betrekking tot de eigenschap moeten groot genoeg zijn en 2) er moeten genoeg vergelijkingen worden uitgevoerd, met 41 vergelijkingen per object als algemene richtlijn. Als laatste heb ik een model ontwikkeld waarmee de relatieve moeilijkheid van twee toetsen met paarsgewijze vergelijkingen van experts bepaald kan worden, zodat de moeilijkheid van de toets niet uitmaakt voor welke score je krijgt. Denk hierbij bijvoorbeeld aan de examens van twee verschillende jaren voor hetzelfde vak. Al met al is mijn conclusie dat paarsgewijs vergelijken waardevol kan zijn voor meten in het onderwijs, maar dat we een kader nodig hebben om dit goed in te kunnen zetten.

Original languageEnglish
QualificationDoctor of Philosophy
Awarding Institution
  • Tilburg University
Supervisors/Advisors
  • Sijtsma, Klaas, Promotor
  • Beguin, Anton, Co-promotor, External person
Award date15 Oct 2025
Place of Publications.l.
Publisher
Print ISBNs978-94-6522-454-1
DOIs
Publication statusPublished - 15 Oct 2025

Fingerprint

Dive into the research topics of 'Behind the scenes of pairwise comparison for educational measurement'. Together they form a unique fingerprint.

Cite this