Abstract
Consistente schattingen voor categorische data gebaseerd op een mix van administratieve bronnen en enquêtes
Bij het produceren van officiële statistieken, maakt het Centraal Bureau voor de Statistiek (CBS) zoveel mogelijk gebruik van bestaande administratieve bronnen. Echter, soms is er interesse in een statistiek over een onderwerp dat niet wordt gemeten in deze bronnen. In dat geval wordt de informatie verkregen door middel van enquêtes.
Zowel administratieve bronnen als enquêtes zijn niet perfect en bevatten allerlei meetfouten. Dit proefschrift introduceert een methode die tegelijkertijd verschillende problemen met betrekking tot die meetfouten aanpakt.
Ten eerste wordt de kwaliteit van de verschillende bronnen geschat. Dit gebeurt door enerzijds inconsistenties te onderzoeken tussen variabelen die hetzelfde meten, maar die afkomstig zijn van andere bronnen. Anderzijds wordt er gekeken naar onwaarschijnlijke of onmogelijke combinaties van scores op verschillende variabelen. Zo is bijvoorbeeld de combinatie van `leeftijd=jonger dan 5 jaar’ en ‘burgerlijke staat = gehuwd’ niet mogelijk omdat dit wettelijk verboden is.
Ten tweede worden statistieken geproduceerd die gecorrigeerd zijn voor de geschatte meetfout. Deze geproduceerde statistieken zijn consistent, dat wil zeggen dat wanneer een kruistabel tussen de variabelen `opleidingsniveau X geslacht X regio’ wordt geproduceerd, en daarnaast ook een kruistabel `opleidingsniveau X geslacht X burgerlijke staat’, dat, bijvoorbeeld, het totaal aantal hoogopgeleide mannen in beide kruistabellen exact gelijk aan elkaar is. Daarnaast worden de statistieken van variantieschattingen voorzien die rekening houden met onzekerheid door de missende en conflicterende waarden in de oorspronkelijke bronnen.
Consistent estimates for categorical data based on a mix of administrative data sources and surveys
When producing official statistics, Statistics Netherlands (CBS) uses existing administrative sources as much as possible. However, sometimes there is interest in a statistic on a subject that is not measured in these sources. In that case, the information is obtained through surveys.
Both administrative sources and surveys are not perfect and contain all kinds of measurement errors. This dissertation introduces a method that simultaneously tackles various problems related to those measurement errors.
First, the quality of the various sources is estimated. This is done on the one hand by investigating inconsistencies between variables that measure the same concept, but that originate from other sources. On the other hand, improbable or impossible combinations of scores on different variables are examined. For example, the combination of “age = younger than 5 years” and “marital status = married” is not possible because this is prohibited by law.
Secondly, statistics are produced that are corrected for the estimated measurement error. These produced statistics are consistent. This means that when a crosstab is produced between the variables “education level X gender X region “, and also a crosstab “education level X gender X marital status”, that, for example, the total number of highly educated men in both cross tables is exactly equal. In addition, the statistics are provided with variance estimates incorporate uncertainty due to the missing and conflicting values in the original sources.
Bij het produceren van officiële statistieken, maakt het Centraal Bureau voor de Statistiek (CBS) zoveel mogelijk gebruik van bestaande administratieve bronnen. Echter, soms is er interesse in een statistiek over een onderwerp dat niet wordt gemeten in deze bronnen. In dat geval wordt de informatie verkregen door middel van enquêtes.
Zowel administratieve bronnen als enquêtes zijn niet perfect en bevatten allerlei meetfouten. Dit proefschrift introduceert een methode die tegelijkertijd verschillende problemen met betrekking tot die meetfouten aanpakt.
Ten eerste wordt de kwaliteit van de verschillende bronnen geschat. Dit gebeurt door enerzijds inconsistenties te onderzoeken tussen variabelen die hetzelfde meten, maar die afkomstig zijn van andere bronnen. Anderzijds wordt er gekeken naar onwaarschijnlijke of onmogelijke combinaties van scores op verschillende variabelen. Zo is bijvoorbeeld de combinatie van `leeftijd=jonger dan 5 jaar’ en ‘burgerlijke staat = gehuwd’ niet mogelijk omdat dit wettelijk verboden is.
Ten tweede worden statistieken geproduceerd die gecorrigeerd zijn voor de geschatte meetfout. Deze geproduceerde statistieken zijn consistent, dat wil zeggen dat wanneer een kruistabel tussen de variabelen `opleidingsniveau X geslacht X regio’ wordt geproduceerd, en daarnaast ook een kruistabel `opleidingsniveau X geslacht X burgerlijke staat’, dat, bijvoorbeeld, het totaal aantal hoogopgeleide mannen in beide kruistabellen exact gelijk aan elkaar is. Daarnaast worden de statistieken van variantieschattingen voorzien die rekening houden met onzekerheid door de missende en conflicterende waarden in de oorspronkelijke bronnen.
Consistent estimates for categorical data based on a mix of administrative data sources and surveys
When producing official statistics, Statistics Netherlands (CBS) uses existing administrative sources as much as possible. However, sometimes there is interest in a statistic on a subject that is not measured in these sources. In that case, the information is obtained through surveys.
Both administrative sources and surveys are not perfect and contain all kinds of measurement errors. This dissertation introduces a method that simultaneously tackles various problems related to those measurement errors.
First, the quality of the various sources is estimated. This is done on the one hand by investigating inconsistencies between variables that measure the same concept, but that originate from other sources. On the other hand, improbable or impossible combinations of scores on different variables are examined. For example, the combination of “age = younger than 5 years” and “marital status = married” is not possible because this is prohibited by law.
Secondly, statistics are produced that are corrected for the estimated measurement error. These produced statistics are consistent. This means that when a crosstab is produced between the variables “education level X gender X region “, and also a crosstab “education level X gender X marital status”, that, for example, the total number of highly educated men in both cross tables is exactly equal. In addition, the statistics are provided with variance estimates incorporate uncertainty due to the missing and conflicting values in the original sources.
Original language | English |
---|---|
Qualification | Doctor of Philosophy |
Supervisors/Advisors |
|
Award date | 25 Oct 2019 |
Place of Publication | s.l. |
Publisher | |
Print ISBNs | 978-94-6323-803-8 |
Publication status | Published - 2019 |