Abstract
Summary
In this thesis, latent class analysis (LCA) was presented as a powerful method for analyzing
multidimensional patient reported outcome measures (PROMs) and several extensions of LCA for causal inference were proposed when the outcomes or exposures are latent constructs measured through PROMs. LCA is a modelling based unsupervised clustering technique that is used to identify patterns in the data and cluster individuals into unobserved classes based on the similarity in their response patterns. LCA is particularly suited for analyzing PROMs data as such data often measure an underlying construct that is not directly observable. For instance, in Chapters 2 and 3 of this thesis, LCA was used for analyzing PROMs on health-related quality of life of cancer survivors.
While LCA has proven useful for identifying typologies of people, describing trajectories of
individuals between classes over time, investigating the association between these classes and auxiliary variables, and making predictions about class membership for individual patients, it cannot be directly used for estimating the causal relationships between the identified classes and the observed auxiliary variables. For identifying a specific causal effect, three assumptions are required to hold: exchangeability, positivity, and consistency. However, PROMs are often collected in retrospective studies and the data resulting from these studies contain confounding. That is, treatments and exposures are not allocated at random in these studies but by indication or self-selection resulting in patients in different treatment groups to be non-exchangeable. In this thesis, causal inference methods for achieving exchangeability in observational data were presented and the combination of these methods with LCA was proposed.
In Chapter 3, bias-adjusted three-step LCA was proposed to be used with inverse propensity
weighting (IPW). Bias-adjusted three-step LCA separates the estimation of the measurement model from the structural model. That is, first, the latent classes as the outcome are constructed with the measurement model. Then, IPW can be used in the structural model to estimate the causal effect of a treatment on class membership. Using the inverse of the probability of receiving treatment as weights, IPW creates treatment groups that are balanced in the distribution of the measured confounders. As such, IPW can be used in bias-adjusted three-step LCA to estimate the causal effect as a weighted marginal difference in class membership probabilities.
In this thesis, latent class analysis (LCA) was presented as a powerful method for analyzing
multidimensional patient reported outcome measures (PROMs) and several extensions of LCA for causal inference were proposed when the outcomes or exposures are latent constructs measured through PROMs. LCA is a modelling based unsupervised clustering technique that is used to identify patterns in the data and cluster individuals into unobserved classes based on the similarity in their response patterns. LCA is particularly suited for analyzing PROMs data as such data often measure an underlying construct that is not directly observable. For instance, in Chapters 2 and 3 of this thesis, LCA was used for analyzing PROMs on health-related quality of life of cancer survivors.
While LCA has proven useful for identifying typologies of people, describing trajectories of
individuals between classes over time, investigating the association between these classes and auxiliary variables, and making predictions about class membership for individual patients, it cannot be directly used for estimating the causal relationships between the identified classes and the observed auxiliary variables. For identifying a specific causal effect, three assumptions are required to hold: exchangeability, positivity, and consistency. However, PROMs are often collected in retrospective studies and the data resulting from these studies contain confounding. That is, treatments and exposures are not allocated at random in these studies but by indication or self-selection resulting in patients in different treatment groups to be non-exchangeable. In this thesis, causal inference methods for achieving exchangeability in observational data were presented and the combination of these methods with LCA was proposed.
In Chapter 3, bias-adjusted three-step LCA was proposed to be used with inverse propensity
weighting (IPW). Bias-adjusted three-step LCA separates the estimation of the measurement model from the structural model. That is, first, the latent classes as the outcome are constructed with the measurement model. Then, IPW can be used in the structural model to estimate the causal effect of a treatment on class membership. Using the inverse of the probability of receiving treatment as weights, IPW creates treatment groups that are balanced in the distribution of the measured confounders. As such, IPW can be used in bias-adjusted three-step LCA to estimate the causal effect as a weighted marginal difference in class membership probabilities.
In Chapter 4, it was investigated how measurement non non-invariance (MNI) affects the performance of this approach. MNI can appear if, for instance, the treatment has direct effects on some indicator variables, that is, effects that cannot be explained by the latent variable. If such direct effects are present, the measurement model will not be the same for individuals in different treatment conditions and the estimate of the causal effect will be biased. In this chapter, an extension of bias adjusted three step LCA with IPW was proposed to account for MNI.
In Chapter 5, a method was proposed for using bias adjusted three step LCA with IPW when the latent classes are considered as exposures and the causal effect of class membership on a distal outcome is of interest. This is a special case of considering multi categorical exposures as with LCA there is not necessarily any hard partitioning . T hat is, usually every individual will have a non zero probability of class membership for each class. Because of this, for each individual, an IPW weight for each class is required. In this chapter, it was shown that the Bolck Croon Hagenaars (BCH) correction for bias adjusted three step LCA can be combined with these class specific weights.
In Chapter 6, an extension for longitudinal data was proposed. When outcomes, exposures, and confounders are time varying, post treatment confounding or intermediate confounding occurs. The g formula addresses these dynamic dependencies over time by specifying separate models, one each for the outcomes, exp osures, and confounders. In this chapter, it was shown that bias adjusted three step latent Markov models can be used to replace the parametric models in the g formula when the outcome is latent.
As demonstrated in the chapters of this thesis , LCA plays an important part in causal inference for the social and behavioral sciences as it provides a tool for ensuring valid measurement of unobservable constructs and t he methods proposed in this thesis facilitate a broader use of causal inference in the social and behavioral sciences.
-
Samenvatting
Latente klassenanalyse (in het Engels “latent class analysis”, afgekort LCA) is een krachtige methode voor het analyseren van multidimensionale uitkomstmaten. In dit proefschrift worden verschillende uitbreidingen van LCA beschreven voor causale inferentie wanneer uitkomsten of mogelijke oorzaken latent constructen zijn, en worden deze uitbreidingen toegepast op patiënt-gerapporteerde uitkomstmaten (in het Engels “patient reported outcome measures”, afgekort PROM). LCA is een model-gebaseerd, ongecontroleerde clusteringsmethode die wordt gebruikt om patronen in de gegevens te identificeren en individuen te clusteren in latente klassen op basis van de gelijkenis in hun responspatronen. LCA is geschikt voor het analyseren van PROM-gegevens omdat hierin vaak een onderliggend construct wordt gemeten dat niet direct waarneembaar is. Bijvoorbeeld, in hoofdstukken 2 en 3 van dit proefschrift is LCA gebruikt voor het analyseren van patiënt-gerapporteerd kwaliteit van leven van overlevenden van kanker.
Hoewel LCA zeer bruikbaar is gebleken voor het identificeren van typologieën van individuen, het beschrijven van longitudinale trajecten van individuen tussen klassen, het onderzoeken van de verbanden tussen klassen en hulpvariabelen (auxiliary variables), en het voorspellen van de klassen waarin individuele patiënten zouden kunnen vallen, kan LCA niet direct worden gebruikt voor het schatten van causale relaties tussen de geïdentificeerde klassen en geobserveerde hulpvariabelen. De identificatie van een specifiek causaal effect berust vaak op drie aannames: exchangeability, positivity, en consistency. Echter, PROM-gegevens worden vaak verzameld in retrospectieve studies, en gegevens uit dergelijke studies bevatten vaak zogenaamde verstorende factoren (confounding variables). Dat wil zeggen dat mogelijke oorzaken in dit soort studies (bijvoorbeeld, het volgen van een behandeling) niet willekeurig verdeeld zijn over individuen: het wel of niet volgen van een behandeling komt vaak tot stand op basis van indicatie of zelfselectie, waardoor individuen in verschillende behandelingsgroepen niet uitwisselbaar (exchangeable) zijn. In dit proefschrift zijn methoden voor causale inferentie gecombineerd met LCA om juist wel exchangeability in observationele data te bereiken.
In hoofdstuk 3 is bias-adjusted three-step LCA geïntroduceerd in combinatie met inverse propensity weighting (IPW). Bias-adjusted three-step LCA scheidt de schatting van een meetmodel van de schatting van het structurele model. Dat wil zeggen, eerst worden latente klassen geconstrueerd op basis van een gespecificeerd meetmodel, en vervolgens wordt IPW gebruikt in het structurele model om het causale effect van een behandeling op de klassenlidmaatschap te schatten. Het wegen van een steekproef op basis van inverse propensity weights creëert een zogenaamde gebalanceerde steekproef waarin de verdeling van de geobserveerde verstorende factoren evenredig over de behandelgroepen verdeeld is. Vervolgens kan de bias-adjusted three-step LCA worden gebruikt om het causale effect te schatten als het marginale verschil in de kansen van klassenlidmaatschap in de gebalanceerde steekproef.
In hoofdstuk 4 is onderzocht hoe de afwezigheid van meetinvariantie (measurement non-invariance) tussen behandelgroepen de prestaties van de in hoofdstuk 3 voorgestelde methode beïnvloedt. Afwezigheid van meetinvariantie kan optreden wanner, bijvoorbeeld, een behandeling directe effecten heeft op sommige latente klassenindicatoren die niet worden gemedieerd door de latente klassen zelf. Als gevolge van dergelijke directe effecten is het meetmodel voor individuen in de verschillende behandelgroepen niet hetzelfde, wat de schatting van het causale effect zal vertekenen. In dit hoofdstuk 4 is een uitbreiding van de bias-adjusted three-step LCA met IPW geïntroduceerd om te controleren voor de afwezigheid van meetinvariantie.
In hoofdstuk 5 is een methode geïntroduceerd voor het gebruik van de bias-adjusted three-step LCA met IPW wanneer de latente klassen als onafhankelijke variabele worden gebruikt, en wanneer het causale effect van klassenlidmaatschap op een toekomstige uitkomstmaat wordt onderzocht. Deze situatie is een speciaal geval van multi-categorical oorzaken, aangezien de indeling van individuen in latente klassen niet absoluut is (de geschatte kans dat een individu behoort tot een bepaalde latente klasse is meestal niet exact nul of één, maar ligt juist tussen de nul en één). Hierdoor is voor elke individu een IPW gewicht per klasse nodig. In dit hoofdstuk is aangetoond dat de Bolck-Croon-Hagenaars (BCH) correctie voor bias-adjusted three-step LCA kan worden gecombineerd met deze klasse-specifieke gewichten.
Hoofdstuk 6 beschrijft een uitbreiding voor longitudinale data. Wanneer uitkomsten, potentiële oorzaken en verstorende factoren variëren over de tijd heen, treedt er zogenaamde post-treatment confounding op. De g-formula is een methode die voor dergelijke dynamische relaties over de tijd heen corrigeert door afzonderlijke modellen voor de uitkomsten, blootstellingen en verstorende factoren te specificeren. In dit hoofdstuk is aangetoond dat bias-adjusted three-step latent Markov models geschikt zijn om de parametrische modellen in de g-formula te vervangen wanneer de uitkomst latent is.
Zoals aangetoond in de hoofdstukken van dit proefschrift, speelt LCA een belangrijke rol in causale inferentie voor de sociale en gedragswetenschappen, omdat deze methode onderzoekers de mogelijkheid biedt om latente constructen op een valide manier te meten. De in deze proefschrift voorgestelde methoden vergemakkelijken een breder gebruik van causale inferentie in de sociale en gedragswetenschappen.
Original language | English |
---|---|
Qualification | Doctor of Philosophy |
Supervisors/Advisors |
|
Award date | 1 Mar 2024 |
Place of Publication | s.l. |
Publisher | |
Print ISBNs | 978-94-6473-383-9 |
Publication status | Published - 1 Mar 2024 |