Abstract
Statistics are often estimated from a sample rather than from the entire population. If the inclusion probability of the sample is unknown to the researcher, that is, a nonprobability sample, naively treating the sample as a simple random sample may result in selection bias. Attention to correcting selection bias is increasing due to the availability of new data sources. These data are often easy to collect and may be so called "Big Data" considering the large inclusion fraction of the population. This dissertation proposes a novel framework for correcting selection bias in nonprobability samples. The general idea is to construct a set of unit weights for the nonprobability sample by borrowing the strength of a reference probability sample. If a proper set of weights is constructed, design-based estimators can be used for population parameter estimation given the weights. To evaluate the uncertainty of the estimated population parameter, a pseudo population bootstrap procedure is proposed given different relations between the nonprobability sample and the probability sample.
Three practical challenges for pseudo-weighting are also discussed. The proposed framework is flexible and many kinds of probability estimation models can be used. The question is raised about how to select a proper model given the population parameter in question. A series of performance measures are tested, and we found that modeling the target variable when evaluating the performance of weights may be useful. The second challenge comes from the large size of the nonprobability sample. Since we often have a large nonprobability sample assisted with a small probability sample, we end up with an imbalanced combined sample which can cause problems when estimating model parameters. Several remedies for imbalanced samples are discussed and the proposed framework is also adjusted accordingly. The results show that SMOTE is a promising technique for dealing with imbalanced samples. Finally, we look at the scenario where not only the population level estimates are of interest but also subpopulation estimates. Several approaches to combine pseudo-weights with small area estimation are discussed. Of all approaches, we found that combining a hierarchical Bayesian model with weights is a relatively stable estimation approach. If both population-level and area-level estimates are of interest, aligning the weighted estimates with estimated marginal totals may be a better option.
___
Statistieken worden vaak gebaseerd op een steekproef in plaats van de gehele
populatie. Als de insluitkansen van de steekproef onbekend zijn bij de onderzoeker, kan
het naïef behandelen van de steekproef als een enkelvoudig aselecte steekproef leiden
tot vertekening (selectiebias). De aandacht voor het corrigeren van selectiebias neemt
toe vanwege de beschikbaarheid van nieuwe gegevensbronnen. Deze gegevens zijn
vaak eenvoudig te verzamelen en kunnen zogenaamde "Big Data" worden genoemd
vanwege de grote inclusiefractie van de populatie. Dit proefschrift stelt een nieuw
raamwerk voor om selectiebias in niet-kanssteekproeven te corrigeren. Het algemene
idee is om een set gewichten voor eenheden van de niet-kanssteekproef te construeren
door informatie van een referentiekanssteekproef te lenen. Als een juiste set gewichten
wordt geconstrueerd, kunnen op deze gewichten gebaseerde schatters worden gebruikt
voor het schatten van populatieparameters. Om de onzekerheid van de geschatte
populatieparameter te evalueren, wordt een pseudo-populatiebootstrap voorgesteld,
gegeven verschillende relaties tussen de niet-kanssteekproef en de kanssteekproef.
Drie praktische uitdagingen voor pseudo-weging worden ook besproken. Het
voorgestelde raamwerk is flexibel en er kunnen veel soorten schattingsmodellen
worden gebruikt. De vraag hoe een geschikt model te selecteren gegeven de
populatieparameter waarin we geïnteresseerd zijn, werd gesteld. Een reeks
prestatiematen wordt getest en dit laat zien dat het modelleren van de doelvariabele bij
het evalueren van de prestatie van gewichten nuttig kan zijn. De tweede uitdaging komt
door de grote omvang van de niet-kanssteekproef. Omdat we vaak een grote niet-kanssteekproef hebben met een kleine kanssteekproef, eindigen we met een
onevenwichtige gecombineerde steekproef en dit kan leiden tot schattingsproblemen.
Verschillende oplossingen voor onevenwichtige steekproeven worden besproken en het
voorgestelde raamwerk wordt ook dienovereenkomstig aangepast. De resultaten laten
zien dat SMOTE veelbelovend is voor het omgaan met onevenwichtige steekproeven. Tot
slot kijken we naar het scenario waarin niet alleen de schattingen op populatieniveau
van belang zijn, maar ook schattingen van subpopulaties. Verschillende manieren om
pseudo-gewichten te combineren met schattingen van kleine domeinen worden
besproken. Van alle manieren vonden we dat het combineren van een hiërarchisch
Bayesiaans model met gewichten een relatief stabiele schattingsmethode is. Als zowel
schattingen op populatieniveau als op domeinniveau van belang zijn, kan het
benchmarken van de gewogen schattingen op de geschatte marginale totalen een
betere optie zijn.
Three practical challenges for pseudo-weighting are also discussed. The proposed framework is flexible and many kinds of probability estimation models can be used. The question is raised about how to select a proper model given the population parameter in question. A series of performance measures are tested, and we found that modeling the target variable when evaluating the performance of weights may be useful. The second challenge comes from the large size of the nonprobability sample. Since we often have a large nonprobability sample assisted with a small probability sample, we end up with an imbalanced combined sample which can cause problems when estimating model parameters. Several remedies for imbalanced samples are discussed and the proposed framework is also adjusted accordingly. The results show that SMOTE is a promising technique for dealing with imbalanced samples. Finally, we look at the scenario where not only the population level estimates are of interest but also subpopulation estimates. Several approaches to combine pseudo-weights with small area estimation are discussed. Of all approaches, we found that combining a hierarchical Bayesian model with weights is a relatively stable estimation approach. If both population-level and area-level estimates are of interest, aligning the weighted estimates with estimated marginal totals may be a better option.
___
Statistieken worden vaak gebaseerd op een steekproef in plaats van de gehele
populatie. Als de insluitkansen van de steekproef onbekend zijn bij de onderzoeker, kan
het naïef behandelen van de steekproef als een enkelvoudig aselecte steekproef leiden
tot vertekening (selectiebias). De aandacht voor het corrigeren van selectiebias neemt
toe vanwege de beschikbaarheid van nieuwe gegevensbronnen. Deze gegevens zijn
vaak eenvoudig te verzamelen en kunnen zogenaamde "Big Data" worden genoemd
vanwege de grote inclusiefractie van de populatie. Dit proefschrift stelt een nieuw
raamwerk voor om selectiebias in niet-kanssteekproeven te corrigeren. Het algemene
idee is om een set gewichten voor eenheden van de niet-kanssteekproef te construeren
door informatie van een referentiekanssteekproef te lenen. Als een juiste set gewichten
wordt geconstrueerd, kunnen op deze gewichten gebaseerde schatters worden gebruikt
voor het schatten van populatieparameters. Om de onzekerheid van de geschatte
populatieparameter te evalueren, wordt een pseudo-populatiebootstrap voorgesteld,
gegeven verschillende relaties tussen de niet-kanssteekproef en de kanssteekproef.
Drie praktische uitdagingen voor pseudo-weging worden ook besproken. Het
voorgestelde raamwerk is flexibel en er kunnen veel soorten schattingsmodellen
worden gebruikt. De vraag hoe een geschikt model te selecteren gegeven de
populatieparameter waarin we geïnteresseerd zijn, werd gesteld. Een reeks
prestatiematen wordt getest en dit laat zien dat het modelleren van de doelvariabele bij
het evalueren van de prestatie van gewichten nuttig kan zijn. De tweede uitdaging komt
door de grote omvang van de niet-kanssteekproef. Omdat we vaak een grote niet-kanssteekproef hebben met een kleine kanssteekproef, eindigen we met een
onevenwichtige gecombineerde steekproef en dit kan leiden tot schattingsproblemen.
Verschillende oplossingen voor onevenwichtige steekproeven worden besproken en het
voorgestelde raamwerk wordt ook dienovereenkomstig aangepast. De resultaten laten
zien dat SMOTE veelbelovend is voor het omgaan met onevenwichtige steekproeven. Tot
slot kijken we naar het scenario waarin niet alleen de schattingen op populatieniveau
van belang zijn, maar ook schattingen van subpopulaties. Verschillende manieren om
pseudo-gewichten te combineren met schattingen van kleine domeinen worden
besproken. Van alle manieren vonden we dat het combineren van een hiërarchisch
Bayesiaans model met gewichten een relatief stabiele schattingsmethode is. Als zowel
schattingen op populatieniveau als op domeinniveau van belang zijn, kan het
benchmarken van de gewogen schattingen op de geschatte marginale totalen een
betere optie zijn.
Original language | English |
---|---|
Qualification | Doctor of Philosophy |
Supervisors/Advisors |
|
Award date | 16 Jun 2025 |
Place of Publication | s.l. |
Publisher | |
DOIs | |
Publication status | Published - 16 Jun 2025 |