Simplifying imputation with many predictors in MICE using principal component analysis

E. Costantini*

*Corresponding author for this work

Research output: ThesisDoctoral Thesis

34 Downloads (Pure)

Abstract

This dissertation addresses the challenge of imputing missing values in large social science data sets.

Social scientists often work with survey data, which frequently contains missing values due to nonresponse. The most rigorous way to address missing data in surveys is multiple imputation. This approach replaces the missing values in the original data with plausible ones defined based on the information provided in the data. The missing values are replaced by multiple plausible values, which allows the analysis of the completed data while considering the added uncertainty due to the missingness.

Researchers using multiple imputation need to make crucial decisions regarding which information to use to define the plausible values. These choices are difficult when the starting survey data contains hundreds of variables. To address this challenge, this dissertation investigated various strategies to streamline the selection of the information to use in multiple imputation to define the plausible values. Among these strategies, the use of Principal Component Analysis (PCA) demonstrated the most promising results. This dissertation investigated novel integrations of PCA with MI and showed how these approaches can simplify the use of multiple imputation for social scientists.

_

Dit proefschrift gaat in op de uitdaging van het toerekenen van ontbrekende waarden in grote datasets van sociale wetenschappen.
Sociale wetenschappers werken vaak met enquêtegegevens, die vaak ontbrekende waarden bevatten als gevolg van non-respons. De meest rigoureuze manier om ontbrekende gegevens in enquêtes aan te pakken is meervoudige toerekening. Bij deze aanpak worden de ontbrekende waarden in de oorspronkelijke gegevens vervangen door plausibele waarden die zijn gedefinieerd op basis van de informatie in de gegevens. De ontbrekende waarden worden vervangen door meerdere plausibele waarden, wat de analyse van de volledige gegevens mogelijk maakt terwijl rekening wordt gehouden met de extra onzekerheid als gevolg van de ontbrekende gegevens.
Onderzoekers die meervoudige toerekening gebruiken, moeten cruciale beslissingen nemen over welke informatie ze gebruiken om de plausibele waarden te definiëren. Deze keuzes zijn moeilijk als de uitgangsenquête honderden variabelen bevat. Om deze uitdaging aan te gaan, werden in dit proefschrift verschillende strategieën onderzocht om de selectie van de informatie die bij meervoudige toerekening moet worden gebruikt om de plausibele waarden te definiëren, te stroomlijnen. Van deze strategieën liet het gebruik van Principale Componenten Analyse (PCA) de meest veelbelovende resultaten zien. Dit proefschrift onderzocht nieuwe integraties van PCA met MI en liet zien hoe deze benaderingen het gebruik van meervoudige toerekening voor sociale wetenschappers kunnen vereenvoudigen.
Original languageEnglish
QualificationDoctor of Philosophy
Supervisors/Advisors
  • Sijtsma, K., Promotor
  • Lang, Kyle M., Co-promotor, External person
  • Reeskens, Tim, Co-promotor
  • de Waal, Ton, Member PhD commission
  • Van Deun, Katrijn, Member PhD commission
  • Buuren, S. van, Member PhD commission, External person
  • Ellis, J.L., Member PhD commission, External person
  • van Ginkel, J.R., Member PhD commission, External person
Award date18 Oct 2024
Place of Publications.l.
Publisher
DOIs
Publication statusPublished - 18 Oct 2024

Fingerprint

Dive into the research topics of 'Simplifying imputation with many predictors in MICE using principal component analysis'. Together they form a unique fingerprint.

Cite this