Totstandkoming
In 2005 ontving het Huygens ING een subsidie van NWO om een vervolg te geven aan de (retro)digitalisering van zijn eigen serie: de Rijks Geschiedkundige Publicatien (RGP). Deze serie is de grootste nationale collectie van bronnenuitgaven op het gebied van de Nederlandse geschiedenis. Inmiddels zijn alle bronnenuitgaven gedigitaliseerd en zijn (en worden) er andere historische bronnen toegevoegd zoals biografische woordenboeken en historische tijdschriften.
Resultaten
Alle historische bronnen zijn gescand en ge-ocrd en opgeslagen in jpg- en pdf-formaat. Een speciale applicatie, waarbij de replica het uitgangspunt was, is ontwikkeld om het gedigitaliseerde materiaal te ontsluiten. De applicatie, de 'pagebrowser' genaamd, biedt niet alleen de mogelijkheid 'virtueel' door het boek te bladeren, maar is gelaagd opgebouwd. Zo kunnen extra ontsluitingsmethoden worden gebruikt voor betere toegankelijkheid. Het kan gaan om een inhoudsopgave met hyperlinks, maar ook om indexen of om een database met trefwoorden. De tekst zelf wordt als afbeelding aangeboden, maar ook als elektronische tekst. Deze kan tot stand zijn gekomen door OCR (Optical Character Recognition), door middel van overtypen, of omdat de tekst van oorsprong al digitaal vervaardigd was.
Inmiddels zijn ook bronnenuitgaven buiten de RGP op dezelfde wijze ontsloten, zoals een aantal biografische naslagwerken die gekoppeld zijn aan het Biografisch portaal en oudere bronnenpublicaties met brieven van Willem van Oranje die gekoppeld zijn aan de brievendatabase van Willem van Oranje. Ook zijn diverse oudere historische tijdschriften op dezelfde wijze ontsloten.Voordelen replicamethode:
- De gebruiker ziet dat de uitgave al eerder is verschenen (en het dus ook een eerdere bronbewerking betreft).
- De originele opmaak van het boek blijft grotendeels behouden.
- Men kan bij citeren eenvoudig naar de bladzijde van het boek verwijzen. Oude verwijzingen naar de boekversie blijven hun geldigheid behouden.
- Door gebruik te maken van de ontsluiting van het boek zelf hoeft het Huygens ING zich voor de bewerking niet inhoudelijk opnieuw in de (verouderde) materie te verdiepen.
- Bij gelijke kosten kan een veelvoud aan gedigitaliseerde boeken worden geproduceerd. Dit resulteert niet alleen in een grotere massa aan bronnen maar ook in veel meer doorzoekbare tekst
Kanttekeningen bij de replicamethode:
- In de meeste gevallen wordt de tekst automatisch herkend via OCR. De OCR-software herkent echter niet alle tekst en is dus ook niet voor 100% correct.
- Zoeken op woordfrequenties, woordgebruik e.d. wordt daardoor bemoeilijkt.
- De tekst is niet gecodeerd, dus extra ontsluiting op basis hiervan is niet mogelijk.
Volledig correcte tekst zou betekenen: overtypen of corrigeren. Hiervoor is bewust niet gekozen.
Redenen:- Overtypen is zeer arbeidsintensief en kostbaar; de kosten per pagina vertwintigvoudigen.
- De verwachting is dat OCR-technieken in de toekomst zeker nog zullen verbeteren.
- Volledig correcte tekst levert behalve een betere doorzoekbaarheid op woorden, woordcombinaties en delen van woorden weinig toegevoegde waarde op. In veel gevallen wordt het zoeken immers toch al bemoeilijkt door verouderde spelling en archaïsch taalgebruik. Bovendien kunnen in één historische bron verschillende talen talen tegelijk worden gebruikt.
- Bij opnieuw overgetypte tekst zou de gebruiker door het moderne uiterlijk de indruk kunnen krijgen dat hij met een modern ontsloten, nieuwe tekst te maken heeft, in plaats van met een selectieve uitgave met eventueel gedateerde editie-principes waarbij veel weggelaten of samengevat kan zijn.
- Volledig correcte tekst zou eerst gecodeerd moeten worden om er een toegevoegde waarde aan te kunnen geven. Dat zou zeer arbeidsintensief zijn en (dure) inhoudelijke deskundigheid vereisen.
Volledig correcte tekst:
- Overigens is het altijd mogelijk om alsnog volledig correcte tekst toe te voegen aan de applicatie en zal deze bij enkele publicaties ook daadwerkelijk ter beschikking zijn. Voor recent (de afgelopen tien jaar) uitgegeven boeken is de digitale kopij beschikbaar.
- Bij zeer gestructureerde publicaties wordt de OCR wel gecorrigeerd en zal de tekst gecodeerd worden, zodat het straks mogelijk is op de afzonderlijke onderdelen uit de tekst te kunnen zoeken en selecteren. Deze publicaties zullen via een apart te ontwikkelen applicatie aangeboden worden. Het reeds gedigitaliseerde Biografisch Woordenboek van Nederland is hiervan een voorbeeld.
Ontsluiting
Er is getracht met minimale middelen zo dicht mogelijk bij de ontsluiting van de oorspronkelijke uitgave te blijven. De middelen van ontsluiting waarvan gebruik van is gemaakt, zijn:
- Overkoepelende zoekingang.
- Aanklikbare inhoudsopgaven (bij alle uitgaven).
- Doorzoekbaarheid op woord (bij alle uitgaven).
- Gestructureerde elementen in brief- of documentkoppen of per artikel zoals datum, correspondent of titel (indien beschikbaar).
- Aanklikbare en doorzoekbare indexen (vooralsnog in enkele gevallen).
Vervolg en toekomst
- Eerdere, met andere methodes gedigitaliseerde projecten aan de nieuwe applicatie toevoegen.
- Nieuwe uitgaven via dezelfde applicatie implementeren, bijvoorbeeld getranscribeerde teksten met afbeeldingen van die teksten.
- Indexen aanklikbaar maken, dat wil zeggen de OCR corrigeren of de tekst overtypen en coderen.