Archiving 2010 | IMPACT en het digitaliseren van oude drukken

Oude druk

Mijn laatste bericht over Archiving 2010 behandelt het IMPACT-project. IMPACT staat voor IMProving Acces to Text. Dit project wordt georganiseerd onder de vleugels van de Europese Unie.

De EU vindt dat erfgoed te traag en in te kleine hoeveelheden gedigitaliseerd wordt. Bovendien is dit erfgoed afkomstig van een te kleine groep organisaties. Hiervoor ziet Europa drie oorzaken:

  • Gebrek aan kennis leidt tot inefficiëntie en het heruitvinden van het warm water. Dit probleem doet zich voor bij de overgrote meerderheid van de bibliotheken, musea en archieven in Europa.
  • Scans omzetten in tekstdocumenten is veel te duur.
  • OCR (optical character recognition; optische tekenherkenning) levert ondermaatse resultaten. Commerciële OCR-software werd ontwikkeld om hedendaagse teksten te herkennen, niet om eeuwenoude lettertypes te herkennen.

IMPACT
Het IMPACT-project is Europa’s antwoord op deze noden. Het project bevat innoverend onderzoek naar OCR- en taaltechnologie voor de verwerking en ontsluiting van historische gedrukte teksten. Er komt ook een expertisecentrum waar erfgoedinstellingen terecht kunnen met vragen over het digitaliseren van teksten.

De projectpartners zijn nationale bibliotheken van verschillende EU-lidstaten, universiteiten en AABBY. Deze laatste is een softwarefirma gespecialiseerd in OCR. De KB (Koninklijke Bibliotheek Nederland) coördineert het project.

Projectdoelen
Hoewel het project reeds loopt sinds 2008 moeten de meeste resultaten nog opgeleverd worden. Er zijn wel een hele reeks artikelen verschenen rond dit project.

IMPACT zal verschillende stukken software (tools) opleveren. Men waarschuwt er voor dat dit geen gebruiksklare producten zullen zijn. Sommige programma’s zullen relatief gemakkelijk geïntegreerd kunnen worden in bestaande workflows, andere zullen verdere investeringen vereisen om ze gebruiksklaar te maken. Deze te ontwikkelen tools hebben betrekking op:

  • Het herkennen van oude lettertypes.
  • Het manipuleren van afbeeldingen om ze beter te kunnen OCR’en. Bijvoorbeeld een afbeelding van een bladzijde uit een boek rechttrekken waardoor de tekst in de vouw beter leesbaar wordt.
  • Het verwijderen van randen van een blad.
  • Het opsplitsen van een tekst in letters, regels, tekstblokken,…

Een volledige lijst vindt u op de website van IMPACT. De tools zullen niet enkel betrekking hebben op het verwerken van de scans. Er worden ook strategische tools ontwikkeld ter ondersteuning van het besluitvormingsproces. 

Resultaten
Op de showcasepagina wordt getoond wat we mogen verwachten van IMPACT. Momenteel is het nog wachten op de nieuwe tools. Dit neemt niet weg dat deze software in de toekomst zeer nuttig zou kunnen zijn. Of het nu gaat om gedigitaliseerde getypte brieven uit de 19e eeuw, Duitse teksten in gotische letters of om incunabels, men zal deze documenten kunnen aanbieden als tekstdocumenten in plaats van als afbeeldingen. Dit betekent een grote meerwaarde voor de eindgebruiker. Full text search, statistische analyse van teksten, zoekmachines die de internetgebruikers recht naar gedigitaliseerd boeken leiden … Het wordt allemaal mogelijk. 

Zal dit van bij het begin feilloos verlopen? Naar alle waarschijnlijkheid niet. Ook deze nieuwe technologieën zullen geconfronteerd worden met kinderziekten. Maar de trend naar een veel grotere toegankelijkheid van ouder tekstmateriaal is ingezet. Een project om in het oog te houden.

Jeroen Poppe