Wat zit er onder het topje van de ijsberg?

Bericht Noord-Holland Archief

Het NHA beheert ongeveer 55 strekkende kilometer aan archieven en collecties, waarvan ongeveer de helft bestaat uit handgeschreven teksten. Slechts van het spreekwoordelijke ‘topje van de ijsberg’ is de inhoud bekend. Stel je voor als je die handgeschreven teksten woordelijk zou kunnen doorzoeken?

Lang leek het een utopische gedachte. Tegenwoordig worden echter grote stappen gezet in het door de computer laten maken van transcripties van handgeschreven teksten. Deze techniek wordt ‘Handwritten Text Recognition’ (HTR) genoemd. Omdat het NHA nieuwe mogelijkheden ziet om de collecties op deze manier voor het voetlicht te brengen is het een overeenkomst aangegaan met het programma Transkribus, ontwikkeld door de Universität Innsbruck en onderdeel van het door de Europese Unie gesubsidieerde project READ (Recognition and Enrichment of Archival Documents).

Belangrijke rol

Handwritten Text Recognition maakt het mogelijk om handgeschreven teksten om te zetten in ‘machine leesbare teksten’ en deze full-text te doorzoeken. Of het nu gaat om middeleeuwse of twintigste-eeuwse handschriften. Daar moet echter wel wat voor gedaan worden, want voor iedere handeling moet de computer eerst ‘getraind’ worden. Waar op een document bevinden zich bijvoorbeeld tekstregio’s? Hoeveel verschillende handschriften kunnen daarop onderscheiden worden? En in welke taal en in welke tijdsperiode is het document geschreven?

Dit zijn elementen die een rol spelen binnen Transkribus en effect hebben op de uiteindelijke kwaliteit van de HTR-resultaten. Het belangrijkste onderdeel van de computertraining is het aanleveren van de correcte transcripties van een deel van de documenten. De computer kan zo leren om de op de documenten voorkomende woorden en karakters te interpreteren.

De mens speelt een belangrijke rol in deze training en zal dit ook in de (nabije) toekomst blijven doen. Zo zorgen vrijwilligers op dit moment voor het creëren van correcte transcripties. Hoe meer trainingsdata er echter gegenereerd worden, door de vrijwilligers en door andere (Nederlandstalige) gebruikers van Transkribus, hoe beter de resultaten van de computer zullen zijn en hoe minder de hulp van de mens uiteindelijk nog nodig is.

Twee vliegen in één klap

Op dit moment voert het NHA een pilot uit op de grote correspondentieseries in het archief van het gemeentebestuur van Haarlem, over de periode 1886-1898. Online is deze serie nu vrijwel onvindbaar. Om hierin verandering te brengen, wordt er gebruik gemaakt van de toegangen die er destijds op deze duizenden documenten zijn gemaakt, een soort postregistratie. Door deze toegangen woordelijk doorzoekbaar te maken, wordt aan het brede publiek getoond welke documenten schuilgaan in de grote correspondentieseries van de gemeente Haarlem. Niet alleen de kwaliteit van HTR wordt zo getest, deze wordt ook op een efficiënte manier ingezet om een zo groot mogelijk deel van de ijsberg zichtbaar te maken: twee vliegen in één klap.

Er is nog een reden om te kiezen voor een experiment met de negentiende-eeuwse postregistratie. Deze is namelijk zeer eenvormig: iedere pagina is exact hetzelfde qua lay-out en slechts door een aantal klerken beschreven. Hoewel Transkribus kan werken met allerlei soorten handschriften, in allerlei talen en uit diverse tijdsperioden, speelt eenvormigheid een belangrijke rol in de uiteindelijke kwaliteit van de HTR. Hoe meer verschillende handschriften er op documenten voorkomen en hoe meer divers hun lay-outs, hoe moeilijker het voor de computer wordt om goede transcripties te maken.

In de pilot werkt het NHA samen met het Nationaal Archief in Den Haag, waar vergelijkbaar materiaal voor Transkribus is geselecteerd. De resultaten kunnen dan niet alleen met elkaar worden vergeleken, maar ook de traingingsdata kunnen worden gecombineerd om betere resultaten te verkrijgen.

Toekomst

Hoewel HTR-technieken nog experimenteel zijn, bieden ze zeer interessante nieuwe mogelijkheden. Als de pilot succesvol is, kan deze techniek bijvoorbeeld worden toegepast op andere (informatierijke) bronnen binnen en buiten het NHA. De ijsberg wordt daarmee niet alleen meer zichtbaar, ook de manier van het doorzoeken van handgeschreven bronnen zal fundamenteel kunnen veranderen, waardoor een reusachtige hoeveelheid nu nog verborgen kennis ter beschikking komt.

zie: https://noord-hollandsarchief.nl/ontdekken/nhalab/project-transkribus

reacties naar jw.koten@hccnet.nl