Abstract
Machine Translation (MT) systems such as Google Translate and other AI-based translators have improved enormously in recent years. At the same time, systems that automatically estimate translation quality — called Quality Estimation (QE) — have also become more advanced. These developments are largely driven by neural networks and large language models (LLMs).
However, despite this progress, modern translation systems still struggle when they are used in specialized domains such as healthcare, law, or information technology. These fields use specific terminology, writing styles, and conventions that differ from the general data on which most AI systems are trained. When a translation model is trained on general texts but applied to a specialized field, its performance often drops. This problem is known as domain mismatch.
Simply training larger models or adding more data does not automatically solve this issue. In fact, this often increases computational costs and environmental impact without improving translation quality in specialized domains. The key question, therefore, is not how to build bigger models, but how to make models better adapted to the domain in which they are used.
This dissertation investigates how machine translation and quality estimation systems can become more accurate, adaptable, and computationally efficient in specialized domains. The research focuses on four main questions.
First, how much in-domain data is actually needed to achieve high-quality translation? The results show that carefully selecting a small amount of relevant domain-specific data often works better than using very large mixed datasets. Our observations, therefore, suggest that the specificity of the data is more important than its volume.
Second, how can quality estimation models be adapted to new domains and languages? The research proposes a step-by-step training approach that combines general training, mixed-domain exposure, and final domain-specific specialization. This makes QE models more robust across languages and settings, including low-resource and cross-lingual scenarios.
Third, the dissertation studies the role of tokenization — the way text is split into smaller units before being processed by AI models. Although tokenization may seem like a technical detail, it turns out to have a major impact on domain adaptation. When the vocabulary and tokenization strategy match the target domain, translation quality improves significantly. Poor alignment, on the other hand, leads to unstable training and weaker results.
Fourth, the dissertation explores how quality estimation can guide large language models during translation without retraining them. Instead of fine-tuning the model, the method selects the best example translations to include in the prompt (a technique known as in-context learning). By using QE to choose the most helpful examples, translation quality improves substantially while keeping computational costs low.
These findings highlight three central insights: (1) Domain adaptation is essential — translation systems do not automatically generalize well across specialized fields. (2) Better data is more important than more data — carefully selected, domain-relevant examples outperform large generic datasets. (3) Efficient adaptation is possible — smart data selection, improved tokenization strategies, and quality-guided prompting can reduce computational cost while maintaining or improving translation quality.
Overall, this dissertation contributes to making AI-based translation systems more reliable, efficient, and suitable for real-world professional applications. Instead of focusing on building ever-larger models, it shows the importance of domain awareness, data quality, and sustainable computation in the future of machine translation.
___
Machine Translation (MT), zoals automatische vertalingen door AI-systemen, is de afgelopen jaren sterk verbeterd. Ook systemen die automatisch de kwaliteit van vertalingen inschatten — Quality Estimation (QE) — zijn aanzienlijk geavanceerder geworden. Deze vooruitgang is vooral te danken aan neurale netwerken en grote taalmodellen (LLMs).
Toch hebben moderne vertaalsystemen nog steeds moeite wanneer ze worden toegepast in gespecialiseerde domeinen zoals de gezondheidszorg, het recht of informatietechnologie. Deze vakgebieden gebruiken specifieke terminologie en schrijfstijlen die sterk verschillen van de algemene teksten waarop veel AI-systemen zijn getraind. Wanneer een model dat is getraind op algemene data wordt gebruikt in een specialistische context, daalt de kwaliteit van de vertaling. Dit probleem wordt domeinmismatch genoemd.
Het simpelweg vergroten van modellen of het toevoegen van meer data lost dit probleem niet automatisch op. Integendeel, dit verhoogt vaak de rekenkosten en de ecologische impact zonder dat de prestaties in gespecialiseerde domeinen verbeteren. De centrale vraag is daarom niet hoe we grotere modellen bouwen, maar hoe we modellen beter kunnen aanpassen aan het domein waarin ze worden gebruikt.
Dit proefschrift onderzoekt hoe machine translation- en quality estimation-systemen nauwkeuriger, flexibeler en efficiënter kunnen worden gemaakt voor gespecialiseerde toepassingen. Vier onderzoeksvragen staan centraal.
Ten eerste: hoeveel domeinspecifieke data is werkelijk nodig voor hoge vertaalkwaliteit? De resultaten laten zien dat een zorgvuldig geselecteerde, relatief kleine hoeveelheid relevante data vaak betere prestaties oplevert dan zeer grote, gemengde datasets. Meer data is niet altijd beter — het gaat om de juiste data.
Ten tweede: hoe kunnen QE-modellen worden aangepast aan nieuwe domeinen en talen? Het proefschrift introduceert een stapsgewijze trainingsaanpak waarin algemene training, gemengde domeintraining en uiteindelijke specialisatie worden gecombineerd. Hierdoor worden de modellen robuuster, ook in meertalige en zogeheten “zero-shot” situaties.
Ten derde wordt de rol van tokenisatie onderzocht — de manier waarop tekst wordt opgesplitst in kleinere eenheden voordat een AI-model deze verwerkt. Hoewel dit een technisch detail lijkt, blijkt het een grote invloed te hebben op domeinaanpassing. Wanneer de woordenschat en tokenisatiestrategie goed aansluiten bij het domein, verbetert de vertaalkwaliteit aanzienlijk.
Ten vierde onderzoekt het proefschrift hoe quality estimation kan worden gebruikt om grote taalmodellen beter te sturen zonder ze opnieuw te trainen. Door slim voorbeeldzinnen te selecteren die aan het model worden meegegeven (in-context learning), kan de vertaalkwaliteit sterk worden verbeterd met veel lagere rekenkosten dan bij volledige hertraining.
De belangrijkste conclusies zijn: (1) Domeinspecificiteit is essentieel — vertaalsystemen generaliseren niet automatisch goed naar gespecialiseerde vakgebieden. (2) Betere data is belangrijker dan meer data — zorgvuldig geselecteerde, relevante voorbeelden leveren betere resultaten dan grote hoeveelheden algemene data. (3) Efficiënte aanpassing is mogelijk — door slimme dataselectie, aangepaste tokenisatie en kwaliteitsgestuurde prompting kan hoge kwaliteit worden bereikt met lagere rekenkosten.
Dit proefschrift draagt bij aan de ontwikkeling van vertaaltechnologie die betrouwbaarder, duurzamer en beter toepasbaar is in professionele omgevingen. In plaats van steeds grotere modellen te bouwen, laat het onderzoek zien dat domeinkennis, datakwaliteit en efficiënt gebruik van middelen centraal moeten staan in de toekomst van automatische vertaling.
However, despite this progress, modern translation systems still struggle when they are used in specialized domains such as healthcare, law, or information technology. These fields use specific terminology, writing styles, and conventions that differ from the general data on which most AI systems are trained. When a translation model is trained on general texts but applied to a specialized field, its performance often drops. This problem is known as domain mismatch.
Simply training larger models or adding more data does not automatically solve this issue. In fact, this often increases computational costs and environmental impact without improving translation quality in specialized domains. The key question, therefore, is not how to build bigger models, but how to make models better adapted to the domain in which they are used.
This dissertation investigates how machine translation and quality estimation systems can become more accurate, adaptable, and computationally efficient in specialized domains. The research focuses on four main questions.
First, how much in-domain data is actually needed to achieve high-quality translation? The results show that carefully selecting a small amount of relevant domain-specific data often works better than using very large mixed datasets. Our observations, therefore, suggest that the specificity of the data is more important than its volume.
Second, how can quality estimation models be adapted to new domains and languages? The research proposes a step-by-step training approach that combines general training, mixed-domain exposure, and final domain-specific specialization. This makes QE models more robust across languages and settings, including low-resource and cross-lingual scenarios.
Third, the dissertation studies the role of tokenization — the way text is split into smaller units before being processed by AI models. Although tokenization may seem like a technical detail, it turns out to have a major impact on domain adaptation. When the vocabulary and tokenization strategy match the target domain, translation quality improves significantly. Poor alignment, on the other hand, leads to unstable training and weaker results.
Fourth, the dissertation explores how quality estimation can guide large language models during translation without retraining them. Instead of fine-tuning the model, the method selects the best example translations to include in the prompt (a technique known as in-context learning). By using QE to choose the most helpful examples, translation quality improves substantially while keeping computational costs low.
These findings highlight three central insights: (1) Domain adaptation is essential — translation systems do not automatically generalize well across specialized fields. (2) Better data is more important than more data — carefully selected, domain-relevant examples outperform large generic datasets. (3) Efficient adaptation is possible — smart data selection, improved tokenization strategies, and quality-guided prompting can reduce computational cost while maintaining or improving translation quality.
Overall, this dissertation contributes to making AI-based translation systems more reliable, efficient, and suitable for real-world professional applications. Instead of focusing on building ever-larger models, it shows the importance of domain awareness, data quality, and sustainable computation in the future of machine translation.
___
Machine Translation (MT), zoals automatische vertalingen door AI-systemen, is de afgelopen jaren sterk verbeterd. Ook systemen die automatisch de kwaliteit van vertalingen inschatten — Quality Estimation (QE) — zijn aanzienlijk geavanceerder geworden. Deze vooruitgang is vooral te danken aan neurale netwerken en grote taalmodellen (LLMs).
Toch hebben moderne vertaalsystemen nog steeds moeite wanneer ze worden toegepast in gespecialiseerde domeinen zoals de gezondheidszorg, het recht of informatietechnologie. Deze vakgebieden gebruiken specifieke terminologie en schrijfstijlen die sterk verschillen van de algemene teksten waarop veel AI-systemen zijn getraind. Wanneer een model dat is getraind op algemene data wordt gebruikt in een specialistische context, daalt de kwaliteit van de vertaling. Dit probleem wordt domeinmismatch genoemd.
Het simpelweg vergroten van modellen of het toevoegen van meer data lost dit probleem niet automatisch op. Integendeel, dit verhoogt vaak de rekenkosten en de ecologische impact zonder dat de prestaties in gespecialiseerde domeinen verbeteren. De centrale vraag is daarom niet hoe we grotere modellen bouwen, maar hoe we modellen beter kunnen aanpassen aan het domein waarin ze worden gebruikt.
Dit proefschrift onderzoekt hoe machine translation- en quality estimation-systemen nauwkeuriger, flexibeler en efficiënter kunnen worden gemaakt voor gespecialiseerde toepassingen. Vier onderzoeksvragen staan centraal.
Ten eerste: hoeveel domeinspecifieke data is werkelijk nodig voor hoge vertaalkwaliteit? De resultaten laten zien dat een zorgvuldig geselecteerde, relatief kleine hoeveelheid relevante data vaak betere prestaties oplevert dan zeer grote, gemengde datasets. Meer data is niet altijd beter — het gaat om de juiste data.
Ten tweede: hoe kunnen QE-modellen worden aangepast aan nieuwe domeinen en talen? Het proefschrift introduceert een stapsgewijze trainingsaanpak waarin algemene training, gemengde domeintraining en uiteindelijke specialisatie worden gecombineerd. Hierdoor worden de modellen robuuster, ook in meertalige en zogeheten “zero-shot” situaties.
Ten derde wordt de rol van tokenisatie onderzocht — de manier waarop tekst wordt opgesplitst in kleinere eenheden voordat een AI-model deze verwerkt. Hoewel dit een technisch detail lijkt, blijkt het een grote invloed te hebben op domeinaanpassing. Wanneer de woordenschat en tokenisatiestrategie goed aansluiten bij het domein, verbetert de vertaalkwaliteit aanzienlijk.
Ten vierde onderzoekt het proefschrift hoe quality estimation kan worden gebruikt om grote taalmodellen beter te sturen zonder ze opnieuw te trainen. Door slim voorbeeldzinnen te selecteren die aan het model worden meegegeven (in-context learning), kan de vertaalkwaliteit sterk worden verbeterd met veel lagere rekenkosten dan bij volledige hertraining.
De belangrijkste conclusies zijn: (1) Domeinspecificiteit is essentieel — vertaalsystemen generaliseren niet automatisch goed naar gespecialiseerde vakgebieden. (2) Betere data is belangrijker dan meer data — zorgvuldig geselecteerde, relevante voorbeelden leveren betere resultaten dan grote hoeveelheden algemene data. (3) Efficiënte aanpassing is mogelijk — door slimme dataselectie, aangepaste tokenisatie en kwaliteitsgestuurde prompting kan hoge kwaliteit worden bereikt met lagere rekenkosten.
Dit proefschrift draagt bij aan de ontwikkeling van vertaaltechnologie die betrouwbaarder, duurzamer en beter toepasbaar is in professionele omgevingen. In plaats van steeds grotere modellen te bouwen, laat het onderzoek zien dat domeinkennis, datakwaliteit en efficiënt gebruik van middelen centraal moeten staan in de toekomst van automatische vertaling.
| Original language | English |
|---|---|
| Qualification | Doctor of Philosophy |
| Awarding Institution |
|
| Supervisors/Advisors |
|
| Award date | 4 Mar 2026 |
| Publisher | |
| Print ISBNs | 978-94-6537-044-6 |
| DOIs | |
| Publication status | Published - 2026 |
Fingerprint
Dive into the research topics of 'Toward domain-specific machine translation and quality estimation systems'. Together they form a unique fingerprint.Cite this
- APA
- Author
- BIBTEX
- Harvard
- Standard
- RIS
- Vancouver