Pushing the boundaries for automated data reconciliation in official statistics

Research output: ThesisDoctoral ThesisScientific

11 Downloads (Pure)

Abstract

Jacco Daalmans presenteert een nieuwe wiskundige methode voor het ‘consistent maken’ van gegevens (data reconciliation) in officiële statistieken door statistische bureaus zoals het CBS.

Wanneer één statistiek op meerdere plekken gepubliceerd wordt, dan moeten de uitkomsten hetzelfde zijn. Een aantal mag niet in de ene publicatie anders zijn dan in een andere. Een verschil in uitkomsten levert verwarring op. Eén van de oorzaken van verschillende uitkomsten is dat cijfers die een statistisch bureau verzamelt en verwerkt, uit tal van bronnen komen die meestal niet consistent zijn. Statistieken moeten ook aan onderlinge relaties voldoen. Een voorbeeld is dat twaalf maandcijfers op moeten tellen tot één jaarcijfer. Wanneer hier niet aan is voldaan, kan men naast het gegeven jaarcijfer, een alternatief jaarcijfer afleiden door de onderliggende maandcijfers op te tellen. Ook dan geen eenduidigheid over het ‘ware’ cijfer. Dit strookt niet met het doel van statistische bureaus om onbetwistbare statistieken te leveren.

Om consistente statistische uitkomsten te maken is het nodig om gegevens aan te passen. De uitkomsten van verschillende statistieken worden een klein beetje gewijzigd, om ze daarmee beter op elkaar af te stemmen, bijvoorbeeld om te zorgen dat twaalf maandcijfers optellen tot een jaarcijfer. In het proefschrift wordt een nieuwe wiskundige methode voor formele data integratie ontwikkeld en toegepast.

De nieuwe methode wordt nu op het CBS toegepast voor het samenstellen van Nationale Rekeningen. Dit gaat om zeer grote en gedetailleerde tabellen, die kunnen worden gezien als boekhouding van een land. Het bruto binnenlands product (BBP) is het bekendste cijfer uit de Nationale Rekeningen. Het aanpassen van data uit de Nationale Rekening is lastig omdat het gaat om zeer veel gegevens die onderling een sterke samenhang hebben. Stel bijvoorbeeld dat uit een confrontatie van bronnen blijkt dat de productie van een bepaald product naar boven moet worden bijgesteld. Dit betekent dat ook meer grondstof moet zijn verbruikt en dit betekent dan weer dat er ook meer van die grondstof moet zijn geproduceerd, of geïmporteerd, etc. Vóór de ingebruikneming van de wiskundige methode hingen correcties meer af van informele methoden zoals inschattingen van experts. De introductie van de formele, wiskundige methode vergroot de reproduceerbaarheid en transparantie van de statistiek.

De methode die in het proefschrift is voorgesteld is vergeleken met een andere methode, die door een ander statistisch bureau is toegepast. De nieuwe methode heeft een belangrijke eigenschap waaraan de andere methode niet voldoet. Kortgezegd houdt die eigenschap in dat de resultaten hetzelfde moeten blijven als de richting van de tijd zou worden omgekeerd.

Het proefschrift onderzoekt verder toepassingen van data integratiemethoden buiten het traditionele toepassingsgebied van de Nationale Rekeningen, zoals bij de volkstelling en bij bedrijfseconomische statistieken. De voorgestelde methoden blijken sommige problemen van de huidig toegepaste methoden te vermijden.
Original languageEnglish
QualificationDoctor of Philosophy
Supervisors/Advisors
  • de Waal, Ton, Promotor
  • Vermunt, Jeroen, Promotor
  • van den Brakel, J.A., Member PhD commission, External person
  • van der Heijden, P.G.M., Member PhD commission, External person
  • Van Deun, Katrijn, Member PhD commission
  • Van Tongeren, J.W., Member PhD commission
Award date22 Mar 2019
Place of Publications.l.
Publisher
Print ISBNs978-94-6361-227-2
Publication statusPublished - 2019

Fingerprint

Reconciliation
Statistics

Cite this

@phdthesis{f7be96da4be54e6f807c993366c62c1b,
title = "Pushing the boundaries for automated data reconciliation in official statistics",
abstract = "Jacco Daalmans presenteert een nieuwe wiskundige methode voor het ‘consistent maken’ van gegevens (data reconciliation) in offici{\"e}le statistieken door statistische bureaus zoals het CBS.Wanneer {\'e}{\'e}n statistiek op meerdere plekken gepubliceerd wordt, dan moeten de uitkomsten hetzelfde zijn. Een aantal mag niet in de ene publicatie anders zijn dan in een andere. Een verschil in uitkomsten levert verwarring op. E{\'e}n van de oorzaken van verschillende uitkomsten is dat cijfers die een statistisch bureau verzamelt en verwerkt, uit tal van bronnen komen die meestal niet consistent zijn. Statistieken moeten ook aan onderlinge relaties voldoen. Een voorbeeld is dat twaalf maandcijfers op moeten tellen tot {\'e}{\'e}n jaarcijfer. Wanneer hier niet aan is voldaan, kan men naast het gegeven jaarcijfer, een alternatief jaarcijfer afleiden door de onderliggende maandcijfers op te tellen. Ook dan geen eenduidigheid over het ‘ware’ cijfer. Dit strookt niet met het doel van statistische bureaus om onbetwistbare statistieken te leveren.Om consistente statistische uitkomsten te maken is het nodig om gegevens aan te passen. De uitkomsten van verschillende statistieken worden een klein beetje gewijzigd, om ze daarmee beter op elkaar af te stemmen, bijvoorbeeld om te zorgen dat twaalf maandcijfers optellen tot een jaarcijfer. In het proefschrift wordt een nieuwe wiskundige methode voor formele data integratie ontwikkeld en toegepast.De nieuwe methode wordt nu op het CBS toegepast voor het samenstellen van Nationale Rekeningen. Dit gaat om zeer grote en gedetailleerde tabellen, die kunnen worden gezien als boekhouding van een land. Het bruto binnenlands product (BBP) is het bekendste cijfer uit de Nationale Rekeningen. Het aanpassen van data uit de Nationale Rekening is lastig omdat het gaat om zeer veel gegevens die onderling een sterke samenhang hebben. Stel bijvoorbeeld dat uit een confrontatie van bronnen blijkt dat de productie van een bepaald product naar boven moet worden bijgesteld. Dit betekent dat ook meer grondstof moet zijn verbruikt en dit betekent dan weer dat er ook meer van die grondstof moet zijn geproduceerd, of ge{\"i}mporteerd, etc. V{\'o}{\'o}r de ingebruikneming van de wiskundige methode hingen correcties meer af van informele methoden zoals inschattingen van experts. De introductie van de formele, wiskundige methode vergroot de reproduceerbaarheid en transparantie van de statistiek.De methode die in het proefschrift is voorgesteld is vergeleken met een andere methode, die door een ander statistisch bureau is toegepast. De nieuwe methode heeft een belangrijke eigenschap waaraan de andere methode niet voldoet. Kortgezegd houdt die eigenschap in dat de resultaten hetzelfde moeten blijven als de richting van de tijd zou worden omgekeerd.Het proefschrift onderzoekt verder toepassingen van data integratiemethoden buiten het traditionele toepassingsgebied van de Nationale Rekeningen, zoals bij de volkstelling en bij bedrijfseconomische statistieken. De voorgestelde methoden blijken sommige problemen van de huidig toegepaste methoden te vermijden.",
author = "J.A. Daalmans",
year = "2019",
language = "English",
isbn = "978-94-6361-227-2",
publisher = "Optima Grafische Communicatie",

}

Pushing the boundaries for automated data reconciliation in official statistics. / Daalmans, J.A.

s.l. : Optima Grafische Communicatie, 2019. 144 p.

Research output: ThesisDoctoral ThesisScientific

TY - THES

T1 - Pushing the boundaries for automated data reconciliation in official statistics

AU - Daalmans, J.A.

PY - 2019

Y1 - 2019

N2 - Jacco Daalmans presenteert een nieuwe wiskundige methode voor het ‘consistent maken’ van gegevens (data reconciliation) in officiële statistieken door statistische bureaus zoals het CBS.Wanneer één statistiek op meerdere plekken gepubliceerd wordt, dan moeten de uitkomsten hetzelfde zijn. Een aantal mag niet in de ene publicatie anders zijn dan in een andere. Een verschil in uitkomsten levert verwarring op. Eén van de oorzaken van verschillende uitkomsten is dat cijfers die een statistisch bureau verzamelt en verwerkt, uit tal van bronnen komen die meestal niet consistent zijn. Statistieken moeten ook aan onderlinge relaties voldoen. Een voorbeeld is dat twaalf maandcijfers op moeten tellen tot één jaarcijfer. Wanneer hier niet aan is voldaan, kan men naast het gegeven jaarcijfer, een alternatief jaarcijfer afleiden door de onderliggende maandcijfers op te tellen. Ook dan geen eenduidigheid over het ‘ware’ cijfer. Dit strookt niet met het doel van statistische bureaus om onbetwistbare statistieken te leveren.Om consistente statistische uitkomsten te maken is het nodig om gegevens aan te passen. De uitkomsten van verschillende statistieken worden een klein beetje gewijzigd, om ze daarmee beter op elkaar af te stemmen, bijvoorbeeld om te zorgen dat twaalf maandcijfers optellen tot een jaarcijfer. In het proefschrift wordt een nieuwe wiskundige methode voor formele data integratie ontwikkeld en toegepast.De nieuwe methode wordt nu op het CBS toegepast voor het samenstellen van Nationale Rekeningen. Dit gaat om zeer grote en gedetailleerde tabellen, die kunnen worden gezien als boekhouding van een land. Het bruto binnenlands product (BBP) is het bekendste cijfer uit de Nationale Rekeningen. Het aanpassen van data uit de Nationale Rekening is lastig omdat het gaat om zeer veel gegevens die onderling een sterke samenhang hebben. Stel bijvoorbeeld dat uit een confrontatie van bronnen blijkt dat de productie van een bepaald product naar boven moet worden bijgesteld. Dit betekent dat ook meer grondstof moet zijn verbruikt en dit betekent dan weer dat er ook meer van die grondstof moet zijn geproduceerd, of geïmporteerd, etc. Vóór de ingebruikneming van de wiskundige methode hingen correcties meer af van informele methoden zoals inschattingen van experts. De introductie van de formele, wiskundige methode vergroot de reproduceerbaarheid en transparantie van de statistiek.De methode die in het proefschrift is voorgesteld is vergeleken met een andere methode, die door een ander statistisch bureau is toegepast. De nieuwe methode heeft een belangrijke eigenschap waaraan de andere methode niet voldoet. Kortgezegd houdt die eigenschap in dat de resultaten hetzelfde moeten blijven als de richting van de tijd zou worden omgekeerd.Het proefschrift onderzoekt verder toepassingen van data integratiemethoden buiten het traditionele toepassingsgebied van de Nationale Rekeningen, zoals bij de volkstelling en bij bedrijfseconomische statistieken. De voorgestelde methoden blijken sommige problemen van de huidig toegepaste methoden te vermijden.

AB - Jacco Daalmans presenteert een nieuwe wiskundige methode voor het ‘consistent maken’ van gegevens (data reconciliation) in officiële statistieken door statistische bureaus zoals het CBS.Wanneer één statistiek op meerdere plekken gepubliceerd wordt, dan moeten de uitkomsten hetzelfde zijn. Een aantal mag niet in de ene publicatie anders zijn dan in een andere. Een verschil in uitkomsten levert verwarring op. Eén van de oorzaken van verschillende uitkomsten is dat cijfers die een statistisch bureau verzamelt en verwerkt, uit tal van bronnen komen die meestal niet consistent zijn. Statistieken moeten ook aan onderlinge relaties voldoen. Een voorbeeld is dat twaalf maandcijfers op moeten tellen tot één jaarcijfer. Wanneer hier niet aan is voldaan, kan men naast het gegeven jaarcijfer, een alternatief jaarcijfer afleiden door de onderliggende maandcijfers op te tellen. Ook dan geen eenduidigheid over het ‘ware’ cijfer. Dit strookt niet met het doel van statistische bureaus om onbetwistbare statistieken te leveren.Om consistente statistische uitkomsten te maken is het nodig om gegevens aan te passen. De uitkomsten van verschillende statistieken worden een klein beetje gewijzigd, om ze daarmee beter op elkaar af te stemmen, bijvoorbeeld om te zorgen dat twaalf maandcijfers optellen tot een jaarcijfer. In het proefschrift wordt een nieuwe wiskundige methode voor formele data integratie ontwikkeld en toegepast.De nieuwe methode wordt nu op het CBS toegepast voor het samenstellen van Nationale Rekeningen. Dit gaat om zeer grote en gedetailleerde tabellen, die kunnen worden gezien als boekhouding van een land. Het bruto binnenlands product (BBP) is het bekendste cijfer uit de Nationale Rekeningen. Het aanpassen van data uit de Nationale Rekening is lastig omdat het gaat om zeer veel gegevens die onderling een sterke samenhang hebben. Stel bijvoorbeeld dat uit een confrontatie van bronnen blijkt dat de productie van een bepaald product naar boven moet worden bijgesteld. Dit betekent dat ook meer grondstof moet zijn verbruikt en dit betekent dan weer dat er ook meer van die grondstof moet zijn geproduceerd, of geïmporteerd, etc. Vóór de ingebruikneming van de wiskundige methode hingen correcties meer af van informele methoden zoals inschattingen van experts. De introductie van de formele, wiskundige methode vergroot de reproduceerbaarheid en transparantie van de statistiek.De methode die in het proefschrift is voorgesteld is vergeleken met een andere methode, die door een ander statistisch bureau is toegepast. De nieuwe methode heeft een belangrijke eigenschap waaraan de andere methode niet voldoet. Kortgezegd houdt die eigenschap in dat de resultaten hetzelfde moeten blijven als de richting van de tijd zou worden omgekeerd.Het proefschrift onderzoekt verder toepassingen van data integratiemethoden buiten het traditionele toepassingsgebied van de Nationale Rekeningen, zoals bij de volkstelling en bij bedrijfseconomische statistieken. De voorgestelde methoden blijken sommige problemen van de huidig toegepaste methoden te vermijden.

M3 - Doctoral Thesis

SN - 978-94-6361-227-2

PB - Optima Grafische Communicatie

CY - s.l.

ER -