Consistent estimates for categorical data based on a mix of administrative data sources and surveys

Laura Boeschoten

Research output: ThesisDoctoral ThesisScientific

10 Downloads (Pure)

Abstract

Consistente schattingen voor categorische data gebaseerd op een mix van administratieve bronnen en enquêtes

Bij het produceren van officiële statistieken, maakt het Centraal Bureau voor de Statistiek (CBS) zoveel mogelijk gebruik van bestaande administratieve bronnen. Echter, soms is er interesse in een statistiek over een onderwerp dat niet wordt gemeten in deze bronnen. In dat geval wordt de informatie verkregen door middel van enquêtes.
Zowel administratieve bronnen als enquêtes zijn niet perfect en bevatten allerlei meetfouten. Dit proefschrift introduceert een methode die tegelijkertijd verschillende problemen met betrekking tot die meetfouten aanpakt.
Ten eerste wordt de kwaliteit van de verschillende bronnen geschat. Dit gebeurt door enerzijds inconsistenties te onderzoeken tussen variabelen die hetzelfde meten, maar die afkomstig zijn van andere bronnen. Anderzijds wordt er gekeken naar onwaarschijnlijke of onmogelijke combinaties van scores op verschillende variabelen. Zo is bijvoorbeeld de combinatie van `leeftijd=jonger dan 5 jaar’ en ‘burgerlijke staat = gehuwd’ niet mogelijk omdat dit wettelijk verboden is.
Ten tweede worden statistieken geproduceerd die gecorrigeerd zijn voor de geschatte meetfout. Deze geproduceerde statistieken zijn consistent, dat wil zeggen dat wanneer een kruistabel tussen de variabelen `opleidingsniveau X geslacht X regio’ wordt geproduceerd, en daarnaast ook een kruistabel `opleidingsniveau X geslacht X burgerlijke staat’, dat, bijvoorbeeld, het totaal aantal hoogopgeleide mannen in beide kruistabellen exact gelijk aan elkaar is. Daarnaast worden de statistieken van variantieschattingen voorzien die rekening houden met onzekerheid door de missende en conflicterende waarden in de oorspronkelijke bronnen.

Consistent estimates for categorical data based on a mix of administrative data sources and surveys
When producing official statistics, Statistics Netherlands (CBS) uses existing administrative sources as much as possible. However, sometimes there is interest in a statistic on a subject that is not measured in these sources. In that case, the information is obtained through surveys.
Both administrative sources and surveys are not perfect and contain all kinds of measurement errors. This dissertation introduces a method that simultaneously tackles various problems related to those measurement errors.
First, the quality of the various sources is estimated. This is done on the one hand by investigating inconsistencies between variables that measure the same concept, but that originate from other sources. On the other hand, improbable or impossible combinations of scores on different variables are examined. For example, the combination of “age = younger than 5 years” and “marital status = married” is not possible because this is prohibited by law.
Secondly, statistics are produced that are corrected for the estimated measurement error. These produced statistics are consistent. This means that when a crosstab is produced between the variables “education level X gender X region “, and also a crosstab “education level X gender X marital status”, that, for example, the total number of highly educated men in both cross tables is exactly equal. In addition, the statistics are provided with variance estimates incorporate uncertainty due to the missing and conflicting values in the original sources.
Original languageEnglish
QualificationDoctor of Philosophy
Supervisors/Advisors
  • de Waal, Ton, Promotor
  • Vermunt, Jeroen, Promotor
  • Oberski, D.L., Co-promotor
  • Groenwold, R.H.H., Member PhD commission, External person
  • van der Ark, L.A., Member PhD commission
  • Smits, W., Member PhD commission, External person
  • Vidotto, Davide, Member PhD commission
Award date25 Oct 2019
Place of Publications.l.
Publisher
Print ISBNs978-94-6323-803-8
Publication statusPublished - 2019

Fingerprint

statistics
marital status
official statistics
gender
earning a doctorate
education
Netherlands
uncertainty
Law
Values

Cite this

@phdthesis{ae60e6a72145445bb15b5f7e2e721ea4,
title = "Consistent estimates for categorical data based on a mix of administrative data sources and surveys",
abstract = "Consistente schattingen voor categorische data gebaseerd op een mix van administratieve bronnen en enqu{\^e}tes Bij het produceren van offici{\"e}le statistieken, maakt het Centraal Bureau voor de Statistiek (CBS) zoveel mogelijk gebruik van bestaande administratieve bronnen. Echter, soms is er interesse in een statistiek over een onderwerp dat niet wordt gemeten in deze bronnen. In dat geval wordt de informatie verkregen door middel van enqu{\^e}tes. Zowel administratieve bronnen als enqu{\^e}tes zijn niet perfect en bevatten allerlei meetfouten. Dit proefschrift introduceert een methode die tegelijkertijd verschillende problemen met betrekking tot die meetfouten aanpakt. Ten eerste wordt de kwaliteit van de verschillende bronnen geschat. Dit gebeurt door enerzijds inconsistenties te onderzoeken tussen variabelen die hetzelfde meten, maar die afkomstig zijn van andere bronnen. Anderzijds wordt er gekeken naar onwaarschijnlijke of onmogelijke combinaties van scores op verschillende variabelen. Zo is bijvoorbeeld de combinatie van `leeftijd=jonger dan 5 jaar’ en ‘burgerlijke staat = gehuwd’ niet mogelijk omdat dit wettelijk verboden is.Ten tweede worden statistieken geproduceerd die gecorrigeerd zijn voor de geschatte meetfout. Deze geproduceerde statistieken zijn consistent, dat wil zeggen dat wanneer een kruistabel tussen de variabelen `opleidingsniveau X geslacht X regio’ wordt geproduceerd, en daarnaast ook een kruistabel `opleidingsniveau X geslacht X burgerlijke staat’, dat, bijvoorbeeld, het totaal aantal hoogopgeleide mannen in beide kruistabellen exact gelijk aan elkaar is. Daarnaast worden de statistieken van variantieschattingen voorzien die rekening houden met onzekerheid door de missende en conflicterende waarden in de oorspronkelijke bronnen. Consistent estimates for categorical data based on a mix of administrative data sources and surveys When producing official statistics, Statistics Netherlands (CBS) uses existing administrative sources as much as possible. However, sometimes there is interest in a statistic on a subject that is not measured in these sources. In that case, the information is obtained through surveys.Both administrative sources and surveys are not perfect and contain all kinds of measurement errors. This dissertation introduces a method that simultaneously tackles various problems related to those measurement errors.First, the quality of the various sources is estimated. This is done on the one hand by investigating inconsistencies between variables that measure the same concept, but that originate from other sources. On the other hand, improbable or impossible combinations of scores on different variables are examined. For example, the combination of “age = younger than 5 years” and “marital status = married” is not possible because this is prohibited by law.Secondly, statistics are produced that are corrected for the estimated measurement error. These produced statistics are consistent. This means that when a crosstab is produced between the variables “education level X gender X region “, and also a crosstab “education level X gender X marital status”, that, for example, the total number of highly educated men in both cross tables is exactly equal. In addition, the statistics are provided with variance estimates incorporate uncertainty due to the missing and conflicting values in the original sources.",
author = "Laura Boeschoten",
year = "2019",
language = "English",
isbn = "978-94-6323-803-8",
publisher = "Gildeprint",

}

Consistent estimates for categorical data based on a mix of administrative data sources and surveys. / Boeschoten, Laura.

s.l. : Gildeprint, 2019. 240 p.

Research output: ThesisDoctoral ThesisScientific

TY - THES

T1 - Consistent estimates for categorical data based on a mix of administrative data sources and surveys

AU - Boeschoten, Laura

PY - 2019

Y1 - 2019

N2 - Consistente schattingen voor categorische data gebaseerd op een mix van administratieve bronnen en enquêtes Bij het produceren van officiële statistieken, maakt het Centraal Bureau voor de Statistiek (CBS) zoveel mogelijk gebruik van bestaande administratieve bronnen. Echter, soms is er interesse in een statistiek over een onderwerp dat niet wordt gemeten in deze bronnen. In dat geval wordt de informatie verkregen door middel van enquêtes. Zowel administratieve bronnen als enquêtes zijn niet perfect en bevatten allerlei meetfouten. Dit proefschrift introduceert een methode die tegelijkertijd verschillende problemen met betrekking tot die meetfouten aanpakt. Ten eerste wordt de kwaliteit van de verschillende bronnen geschat. Dit gebeurt door enerzijds inconsistenties te onderzoeken tussen variabelen die hetzelfde meten, maar die afkomstig zijn van andere bronnen. Anderzijds wordt er gekeken naar onwaarschijnlijke of onmogelijke combinaties van scores op verschillende variabelen. Zo is bijvoorbeeld de combinatie van `leeftijd=jonger dan 5 jaar’ en ‘burgerlijke staat = gehuwd’ niet mogelijk omdat dit wettelijk verboden is.Ten tweede worden statistieken geproduceerd die gecorrigeerd zijn voor de geschatte meetfout. Deze geproduceerde statistieken zijn consistent, dat wil zeggen dat wanneer een kruistabel tussen de variabelen `opleidingsniveau X geslacht X regio’ wordt geproduceerd, en daarnaast ook een kruistabel `opleidingsniveau X geslacht X burgerlijke staat’, dat, bijvoorbeeld, het totaal aantal hoogopgeleide mannen in beide kruistabellen exact gelijk aan elkaar is. Daarnaast worden de statistieken van variantieschattingen voorzien die rekening houden met onzekerheid door de missende en conflicterende waarden in de oorspronkelijke bronnen. Consistent estimates for categorical data based on a mix of administrative data sources and surveys When producing official statistics, Statistics Netherlands (CBS) uses existing administrative sources as much as possible. However, sometimes there is interest in a statistic on a subject that is not measured in these sources. In that case, the information is obtained through surveys.Both administrative sources and surveys are not perfect and contain all kinds of measurement errors. This dissertation introduces a method that simultaneously tackles various problems related to those measurement errors.First, the quality of the various sources is estimated. This is done on the one hand by investigating inconsistencies between variables that measure the same concept, but that originate from other sources. On the other hand, improbable or impossible combinations of scores on different variables are examined. For example, the combination of “age = younger than 5 years” and “marital status = married” is not possible because this is prohibited by law.Secondly, statistics are produced that are corrected for the estimated measurement error. These produced statistics are consistent. This means that when a crosstab is produced between the variables “education level X gender X region “, and also a crosstab “education level X gender X marital status”, that, for example, the total number of highly educated men in both cross tables is exactly equal. In addition, the statistics are provided with variance estimates incorporate uncertainty due to the missing and conflicting values in the original sources.

AB - Consistente schattingen voor categorische data gebaseerd op een mix van administratieve bronnen en enquêtes Bij het produceren van officiële statistieken, maakt het Centraal Bureau voor de Statistiek (CBS) zoveel mogelijk gebruik van bestaande administratieve bronnen. Echter, soms is er interesse in een statistiek over een onderwerp dat niet wordt gemeten in deze bronnen. In dat geval wordt de informatie verkregen door middel van enquêtes. Zowel administratieve bronnen als enquêtes zijn niet perfect en bevatten allerlei meetfouten. Dit proefschrift introduceert een methode die tegelijkertijd verschillende problemen met betrekking tot die meetfouten aanpakt. Ten eerste wordt de kwaliteit van de verschillende bronnen geschat. Dit gebeurt door enerzijds inconsistenties te onderzoeken tussen variabelen die hetzelfde meten, maar die afkomstig zijn van andere bronnen. Anderzijds wordt er gekeken naar onwaarschijnlijke of onmogelijke combinaties van scores op verschillende variabelen. Zo is bijvoorbeeld de combinatie van `leeftijd=jonger dan 5 jaar’ en ‘burgerlijke staat = gehuwd’ niet mogelijk omdat dit wettelijk verboden is.Ten tweede worden statistieken geproduceerd die gecorrigeerd zijn voor de geschatte meetfout. Deze geproduceerde statistieken zijn consistent, dat wil zeggen dat wanneer een kruistabel tussen de variabelen `opleidingsniveau X geslacht X regio’ wordt geproduceerd, en daarnaast ook een kruistabel `opleidingsniveau X geslacht X burgerlijke staat’, dat, bijvoorbeeld, het totaal aantal hoogopgeleide mannen in beide kruistabellen exact gelijk aan elkaar is. Daarnaast worden de statistieken van variantieschattingen voorzien die rekening houden met onzekerheid door de missende en conflicterende waarden in de oorspronkelijke bronnen. Consistent estimates for categorical data based on a mix of administrative data sources and surveys When producing official statistics, Statistics Netherlands (CBS) uses existing administrative sources as much as possible. However, sometimes there is interest in a statistic on a subject that is not measured in these sources. In that case, the information is obtained through surveys.Both administrative sources and surveys are not perfect and contain all kinds of measurement errors. This dissertation introduces a method that simultaneously tackles various problems related to those measurement errors.First, the quality of the various sources is estimated. This is done on the one hand by investigating inconsistencies between variables that measure the same concept, but that originate from other sources. On the other hand, improbable or impossible combinations of scores on different variables are examined. For example, the combination of “age = younger than 5 years” and “marital status = married” is not possible because this is prohibited by law.Secondly, statistics are produced that are corrected for the estimated measurement error. These produced statistics are consistent. This means that when a crosstab is produced between the variables “education level X gender X region “, and also a crosstab “education level X gender X marital status”, that, for example, the total number of highly educated men in both cross tables is exactly equal. In addition, the statistics are provided with variance estimates incorporate uncertainty due to the missing and conflicting values in the original sources.

M3 - Doctoral Thesis

SN - 978-94-6323-803-8

PB - Gildeprint

CY - s.l.

ER -