Demonstratiedag van het IMPACT-project

Vorig jaar verscheen reeds een eerste bericht over het IMPACT-project naar aanleiding van Archiving 2010. Op 16 februari 2011 vond een demonstratiedag van het project plaats in de Koninklijke Bibliotheek (KB) in Den Haag. Een goede gelegenheid om een blogbericht te schrijven over de vorderingen van het project.

Waarover gaat het IMPACT-project ook weer?
IMPACT staat voor Improving Acces to Text. Het project bevat innoverend onderzoek naar OCR- en taaltechnologie voor de verwerking en ontsluiting van historische gedrukte teksten. Het project ontwikkelt tools die de scans corrigeren en vervolgens OCR’en. Er komt ook een expertisecentrum waar erfgoedinstellingen terecht kunnen met vragen over het digitaliseren van teksten. De projectpartners zijn nationale bibliotheken van verschillende EU-lidstaten, universiteiten, ABBYY en IBM. De KB coördineert het project.

Het probleem
OCR (Optical Character Recognition, optische tekenherkenning) bestaat al lang, maar voldeed niet om teksten van vóór 1950 te herkennen. Men stuitte op de volgende problemen:

  • andere spelling en vaak verschillende spellingswijzen voor hetzelfde woord;
  • door de ouderdom en bewaring in een te vochtige omgeving  golven de bladzijden van oude boeken;
  • de bladzijden van een openliggend boek liggen niet vlak, maar bol;
  • andere lettertypes, denken we bijvoorbeeld maar aan gotische letters;
  • een ander taalgebruik.

Het proces
Tijdens de demonstratiedag viel op dat OCR’en een stuk ingewikkelder is dan men op het eerste gezicht zou denken. Dit zijn de verschillende stappen die het OCR-proces doorloopt. Het IMPACT-project ontwikkelt tools voor alle stappen vanaf stap vier 'beeldcorrectie'.

  1. Kennisbank
  2. Scannen
  3. Het beeld wordt gemaakt
  4. Beeldcorrectie: op de scan staan rondom het boek zwarte randen. Deze hinderen de OCR en worden verwijderd. De tools verwijderen de bolling en trekken de tekst in de vouw van het boek recht.
  5. OCR’en: verbeteringen in het segmenteren van een pagina. Letters, woorden, regels en tekstblokken worden beter herkend.
  6. OCR-correctie: de software markeert twijfelgevallen. Een gebruiker corrigeert deze. Hiervoor kan gebruik gemaakt worden van het grote publiek.
  7. Computerlexicon: deze lexica zorgen voor taalkundige verrijking. Ze verruimen ook de zoekmogelijkheden en laten het geautomatiseerd samenvatten van teksten toe.
  8. Lexica-correctie
  9. Structuur verbeteren: witte boorden worden verkleind en geüniformiseerd. Dit met het oog op en creëren van een e-book of zelfs het opnieuw afdrukken van het boek.
  10. Evaluatie
  11. Opname in framework: Een modulaire en transparente methode voor evaluatie van specifieke workflows.

Meer informatie:

Praktisch
Een deel van de projectresultaten werd verwerkt in ABBYY FineReader 10. De IMPACT-tools zullen ook via de webstek ter beschikking gesteld worden. Daarvoor is het echter nog wachten tot het einde van het project. Dan zal men de tools als webservice aanbieden en zal men ze ook kunnen downloaden en installeren. In de tussentijd is er wel mogelijkheid om beperkte hoeveelheden scans aan te bieden aan het project om te laten OCR’en.

Expertisecentrum
Na afloop van het project op 31 december 2011 wil men de resultaten van IMPACT verder ontwikkelen. Er zijn plannen voor een expertisecentrum op vlak van digitaliseren en OCR van documentair erfgoed. Het expertisecentrum zal in de KB gehuisvest worden. Momenteel zoekt men naar een businessmodel voor deze nieuwe organisatie. Dit expertisecentrum kadert in een netwerk van Europese erfgoedexpertisecentra. Ander expertisecentra in dit netwerk zijn de Open Planets Foundation (digitaal archiveren), 3D-Coform (3D technologie in de erfgoedsector) en PrestoPRIME (digitaliseren en conserveren van audiovisueel erfgoed).

De toekomst
Men denkt ook reeds na over een vervolgproject. In de toekomst zou men ook het Latijn willen ondersteunen. Ook de mogelijkheden om met deze technologie manuscripten te OCR’en, wil men bestuderen.

Jeroen Poppe