Het cultureel erfgoed bestaat voor een groot deel uit tekstueel materiaal. Ook Naturalis, het nationale museum voor natuurhistorie in Leiden, bewaart naast miljoenen opgezette en anderszins geconserveerde dieren, aanzienlijke archieven van logboeken en registerboeken die de vondsten van de dieren documenteren. De oudste logboeken dateren uit de tijd dat biologen meevoeren met schepen van de VOC. De logboeken en registerboeken spelen nog steeds een cruciale rol in het onderzoek van de biologen van Naturalis naar de evolutie en verspreiding van diersoorten door de eeuwen heen; zonder de teksten en registers is toegang tot de enorme collectie vrijwel onmogelijk.
Het MITCH-project, dat uitgevoerd wordt door drie wetenschappelijk medewerkers van de Universiteit van Tilburg in het onderzoekslaboratium van Naturalis, richt zich op de automatisering van het ontginnen van gedigitaliseerde versies van logboeken en registerboeken, zodat onderzoekers en collectiemanagers met meer gemak en tijdswinst kunnen zoeken in de collectie, en ingewikkeldere zoekvragen op de electronisch beschikbare informatie kunnen loslaten dan voorheen mogelijk was. Het project maakt gebruik van nieuwe methoden uit de taaltechnologie en kunstmatige intelligentie om de ruw gedigitaliseerde gegevens op te schonen en te verrijken.
In de eerste fase van het project wordt gewerkt aan het grootschalig opschonen van bestaande digitale bestanden: het corrigeren en gelijktrekken van schrijfwijzen van namen van personen, plaatsen en dieren, en met name die laatste in overeenstemming te laten zijn met de conventies van de bestaande zo�logische taxonomie. In het vervolg van het project worden bestaande digitale opgeschoonde teksten als logboeken, wetenschappelijke artikelen, en educatieve of journalistieke teksten gekoppeld aan elkaar zodat een rijke referentie-architectuur ontstaat, waarin geavanceerd kan worden gezocht naar patronen en verbanden tussen dieren, vinders, tijdperiodes, locaties, en bestaande verhalen en nieuwsfeiten over dieren.