De realisatie van een digitaliseringsproject bestaat uit zes processen:
Een grote collectie kwaliteitsvol digitaliseren is erg arbeidsintensief. Het gaat om meer dan scannen alleen. Het is cruciaal om voldoende tijd uit te trekken voor de voorbereiding van het materiaal en de kwaliteitscontrole tijdens of na het scanproces. Iedere collectie is anders, dus iedere collectie vereist zijn eigen aanpak. Tijdens de initiatie is het van cruciaal belang deze extra kosten in rekening te nemen.
Ga vooraf steeds te rade bij relevante partners. In Vlaanderen neemt expertisecentrum PACKED vzw een coördinerende rol op inzake digitaliseringsprojecten. Andere spelers met veel kennis over de materie zijn VIAA, de KBR, het KIK en het Felixarchief.
Specifiek voor het project van de digitalisering van architectuurtijdschriften, organiseerde het Vlaams Architectuurinstituut (VAi) in 2012 een expertmeeting.
Het is evident dat tijdschriften met een grote cultuur-historische en/of artistieke waarde als eerste kandidaat is om gedigitaliseerd te worden. Er zijn echter nog enkele meer praktische parameters die bij de selectie van het materiaal in acht moeten worden genomen:
Een digitaliseringsproject kan worden uitgevoerd om verschillende doelstellingen:
Zeker voor de laatste doelstelling zijn er hoge scannormen vereist, wat de prijs kan doen oplopen. Algemeen wordt vaak de stelling scan once for all purposes aangeraden, aangezien een digitaliseringsproces sowieso vrij duur en arbeidsintensief is. Doe het dus meteen goed en probeer zoveel als mogelijk de Metamorfozerichtlijnen aan te houden.
Indien het materiaal tekst bevat, dan is het aan te raden om deze tekst machineleesbaar te maken via OCR (Optical Character Recognition). Ook dit kan best in één keer door het digitaliseringsbedrijf gebeuren, aangezien zij meestal over de laatste state-of-the-art software beschikken.
Een specifieke beslissing voor het tijdschriftenproject hield in dat ook de reclameblokken moesten worden ingescand en machineleesbaar gemaakt. Dit omdat reclameblokken een belangrijke bron zijn voor onderzoek naar bouwbedrijven en andere leveranciers. Een andere beslissing was om de tijdschriften op artikelniveau te ontsluiten en toegankelijk te maken, wat een zware impact heeft op de post-processing.
Specificaties moeten worden vastgelegd voor volgende zaken:
Maak afspraken over:
Vraag een proefscan voor minstens 1 editie, met alles erop en eraan: OCR, metadata, kwaliteitscontrolerapporten enz. Gebruik deze proefscan vervolgens als het ijkpunt of de standaard voor alle volgende scans.
Leg vast wie het rechtstreekse aanspreekpunt is voor het project. Bepaal een communicatiemethode, bv. via mail of chat.
Wat de leveringswijze betreft, heeft dit bij grote projecten voor de kwaliteitscontrole de voorkeur om dit stapsgewijs te doen, bv. editie per editie, of jaargang per jaargang. Op die manier kan de kwaliteitscontrole sneller verlopen en fouten worden rechtgezet. Dit kan bijvoorbeeld door bestanden te laten leveren via een Dropbox-folder. Dit stelt dan wel weer zijn eisen op vlak van infrastructuur en inzet van personeel door de collectiebeherende instelling. Door de levering in een bagit-formaat te laten gebeuren, kan de controle van de fixity eenvoudig worden gerealiseerd.
Neem duidelijk op in het contract met de leverancier hoe hij fouten oplost. Vaak is dit problematisch. Stel dat na controle blijkt dat 50 % van het scanwerk moet worden overgedaan, dan is dit vaak moeilijk haalbaar voor zowel de collectiebeherende instelling als de leverancier. Voorzie daarom voldoende controlemomenten tijdens het scanproces. Bij voorkeur dagelijks, maar ook per week kan de schade al beperken.
Maak afspraken over:
Neem eventueel een bezoekclausule op, zodat je de plekken van digitalisering en opslag zelf kunt bekijken. Dit valt hoogst aan te raden, omdat je dan ook kunt doorvragen over bepaalde zaken.
Maak afspraken over:
Je masterbestand bevat de scan in de hoogst mogelijke kwaliteit. De master is het archiveringsbestand, waar je steeds opnieuw op kunt terugvallen. Voor masterbestanden blijft Uncompressed Baseline IBM TIFF v6.0 het meest aangewezen bestandstype. Een alternatief als JPEG2000 werd gebruikt tijdens het digitaliseringsproject van de tijdschriften. Dit heeft het voordeel dat de bestandsgrootte lager is, maar het formaat wordt niet zo goed ondersteund door gangbare viewers voor afbeeldingen. Ook is de kwaliteitscontrole moeilijker door de complexiteit van het bestandsformaat.
Kies voor niet gecomprimeerde formaten. De profilering van de formaten wordt meegenomen in de Metamorfozerichtlijnen over scankwaliteit, maar het kan geen kwaad om deze expliciet te formuleren en in het bijzonder het kleurprofiel. Het aangewezen kleurprofiel is ECI-RGBv2.
Niet iedere TIFF steekt op dezelfde manier in elkaar. Spreek met de leverancier af hoe je de masterbestanden gaat controleren op welgevormdheid. Je kunt gebruik maken van validators als JHOVE 2 of (gebruiksvriendelijker) DPF Manager. Test de resultaten van deze validators tijdens de aanlevering van de proefscan. Betrek hier indien mogelijk specialisten bij.
De afgeleide bestanden worden letterlijk afgeleid, of gegenereerd uit, de masterbestanden. De vorm die deze aannemen hangt af van de wensen.
Als raadpleegformaat voor tijdschriftedities wordt vaak voor een PDF per editie gekozen. Voorzie dan dat deze PDF voldoet aan profiel PDF/A1-b. Spreek ook hier op voorhand af hoe je de validiteit gaat controleren. Voor PDF/A is een tool als VeraPDF ideaal. Voor snelle visualisatie en controle kan ook een raadpleegformaat in jpeg worden opgevraagd.
OCR-bestanden zijn meestal tekstbestanden. Een OCR-bestand met info over de locatie van ieder letterteken is een ALTO-bestand, dat kan gebruikt worden in combinatie met een overkoepelend METS-bestand. ALTO-bestanden zijn enkel leesbaar door systemen. Zo’n systeem moet dus bestaan of in aanmaak zijn. Kijk goed na wat de meerwaarde is van het opvragen van ALTO-bestanden (t.o.v. de prijs), want in tegenstelling tot het scannen zelf kan OCR opnieuw gedaan worden op basis van de scans.
Indien een ALTO-bestand wordt opgevraagd als OCR-bestand, vraag dan ook steeds gewone tekstbestanden op. Deze kunnen helpen om de kwaliteit van de OCR manueel te controleren. Zorg dat tekstbestanden steeds als UTF-8 zijn gecodeerd. Controleer dit met behulp van een tool als JHOVE 2.
Metadatabestanden zijn bestanden die metadata over de andere bestanden verzamelen. Meestal gebeurt dit in een METS-bestand, dat een overkoepelend overzicht geeft van alle bestanden en hoe ze zijn gelinkt. (Zie ook structurele metadata)
Maak afspraken over:
Een basis waarop je je kunt baseren om scankwaliteit te bepalen zijn de Metamorfoze-richtlijnen (let op: die zijn meteen ook heel streng!) Voor werken waarbij een exacte kleurreproductie wordt gevraagd, is de strengste Metamorfoze-richtlijn van toepassing. Voor de digitalisering van archief- of tijdschriftmateriaal, waarbij kleurnauwkeurigheid minder een rol speelt, is dat Metamorfoze-Light. De metamorfozenorm bepaalt wat er verwacht wordt rond resolutie, bitdiepte, gain modulation en een hele rist andere technische parameters. Spreek op voorhand af hoe je de kwaliteit van de scans gaat controleren.
De OCR-kwaliteit wordt weergegeven in een maximaal foutenpercentage. In principe is er een foutenpercentage op “karakterherkenning” en een foutenpercentage op “woordherkenning”. Van dit laatste is de controle op dit moment moeilijk te automatiseren. Voor "karakterherkenning" kan software wel helpen in het opsporen van fouten.
Maak afspraken over:
Denk bij tijdschriften goed na over wat te doen bij foute inbindingen in het verleden. Dit heeft gevolgen voor het bepalen van de structurele metadata. In het geval van tijdschrift l’Emulation waren de bijlagen van iedere tijdschrifteditie per jaargang verzameld en vervolgens achteraan ingebonden.
Folderstructuur: Bepaal bij tijdschriften of de bestanden in één map, per editie, per jaargang of per boekband moeten worden opgeleverd. Omwille van bewerking en controle is het aan te raden om het aantal hiërarchische niveaus zoveel mogelijk te beperken en informatie in de bestandsnaam of metadatabestanden (XML) op te nemen.
Filenames: Bepaal de structuur van de bestandsnaam. De website van het project CEST vermeldt dat betekenisvolle bestandsnamen vaak hinderlijk zijn voor een vlotte scanningworkflow. Dit bleek mee te vallen tijdens het project met architectuurtijdschriften, maar wel is het zo dat dit de foutgevoeligheid verhoogt. . Let bij de communicatie met de leverancier goed op dat er eenduidige termen worden gebruikt die goed worden gedefinieerd. Er is al snel verwarring tussen termen als Volumenr., Issuenr. en Editionnr. Een goede materiaalvoorbereiding (zie onder) biedt een belangrijke hulp in deze zaken. Bij voorkeur geef je - indien je voor een betekenisvolle naamgeving gaat - per item expliciet aan hoe de bestanden moeten worden vernoemd.
METS-bestanden: Folderstructuur en filenames zijn vrij rigide hulpmiddelen om structuur aan te brengen in de bestanden. Zij dienen zich dan ook enkel te beperken tot uniek identificeren en plaatsen van het bestand. Andere informatie kan in een XML worden opgeslagen. Meestal gebeurt dit in de vorm van een METS-bestand. In het architectuurtijdschriftenproject werd een METS-bestand gemaakt per editie. In een METS-bestand worden beschrijvende metadata en technische metadata in aparte secties opgeslagen en vervolgens aan elk bestand gelinkt. Ook kan in METS de tijdschriftstructuur worden opgenomen.
Voor het architectuurtijdschriftenproject is gebruik gemaakt van een METS-XML-structuur die is gebaseerd op een structuur van de national archives of Australia. Deze bevat meteen ook een inleiding op METS. Maar ook andere structuren zijn mogelijk.
Maak afspraken over:
In het architectuurtijdschriftenproject waren geen specificaties opgenomen over technische metadata. Het valt in ieder geval aan te raden om administratieve metadata op te nemen, zoals scanner merk en versie, scansoftware en versie en scanningdatum.
Maak afspraken over:
Maak afspraken over:
Voor het architectuurtijdschriftenproject zijn volgende metadata-elementen opgenomen (via MODS)
Voor artikels:
Het is ook mogelijk om al deze zaken te beschrijven in de catalogus en vervolgens een link op te nemen naar de beschrijving in de catalogus.
Maak afspraken over:
Ga ervan uit dat de collectiebeherende instelling altijd zal moeten controleren. Zie meer info bij de kwaliteitscontrole.
Materiaal digitaliseren zonder een gedetailleerde beschrijving ervan is gedoemd om te leiden tot fouten. Een tijdschriftenreeks kan gestructureerd lijken, toch zul je merken dat er telkens afwijkingen optreden in die vaste structuur. Door alles goed op te lijsten en zelf door het materiaal te gaan kun je deze afwijkingen opsporen en zelf beslissingen nemen over de aanpak, eventueel in samenspraak met het digitaliseringsbedrijf. De materiaalvoorbereiding is ook essentieel voor de kwaliteitscontrole. Bovendien geeft het je een duidelijk overzicht van welk materiaal naar buiten gaat.
Tijdens de materiaalvoorbereiding zorg je dat:
Voor het tijdschriftenproject stelde het VAi een materiaalvoorbereiding op van zes tijdschriften. Hieronder kun je de materiaalvoorbereiding downloaden voor het tijdschrift Bulletin des métiers d'art, online te raadplegen op de website van de Universiteitsbibliotheek Gent.
In essentie zijn er twee technologieën om te digitaliseren: Scannen en fotograferen. Wij gaan hier niet verder in op deze thematiek. Een goede basisuitleg vind je in het handboek digitaliseren dat FARO uitgaf in 2011.
Onder post-processing worden alle handelingen verstaan na het maken van de reproductie. Het kan gaan om:
Hoe deze zaken gebeuren wordt best steeds vastgelegd in de specificaties.
Kwaliteitscontrole - en zeker de controle van de scankwaliteit en de volledigheid - gebeurt bij voorkeur zoveel mogelijk tijdens het digitaliseringsproces. Het is niet ideaal om een fout pas te ontdekken nadat het hele tijdschrift is gescand. Spreek met de leverancier tussentijdse controles af op gezette tijden.
Zorg voor de aanvang van het project voor een objectief ijkpunt ter controle, idealiter in de vorm van een proefscan. Na goedkeuren zal de proefscan kunnen dienen als referentiepunt. Zorg er daarom voor dat in de gehele projecttiming voldoende tijd wordt uitgetrokken voor het creëren en controleren van een proefscan.
Heb je tijdens de materiaalvoorbereiding de moeite genomen om het aantal pagina's per editie/boek te noteren, dan is de controle van de volledigheid vrij eenvoudig. Vergelijk het aantal scans met het aantal getelde pagina's. Controleer nader waar er afwijkingen zijn.
De scankwaliteit is vrij moeilijk te controleren, want hier zitten we op het terrein van de beeldwetenschappen. Essentieel is dat er met targets wordt gewerkt. Voor het tijdschriftenproject is met de UTT gewerkt. Vraag om een target op te nemen bij de start van iedere scandag. Om te onderzoeken of zo'n targetscan voldoet aan de metamorfozenormen zijn er een aantal tools ontwikkeld. De eenvoudigste in gebruik is delt.ae van Picturae, die controles uitvoert aan de hand van de UTT (Universal Test Target). De tool is niet 100 % waterdicht, maar zeker beter dan niets.
De Vlaamse Erfgoedbibliotheek ontwikkelde samen met VIAA en PACKED een procedure om de kwaliteit van scans betrouwbaar te controleren. Dit houdt een arbeidsintensieve, dure procedure in met Adobe PhotoShop en het (dure) programma IQ-analyzer. 4 Dergelijke controles kunnen dus best gebeuren in samenwerking met een speler als VIAA of PACKED. Vraag na of hiervoor iets te regelen is.
Compliance met de Metamorfoze-normen sluit niet problemen als het moiré-effect uit, of half ingescande pagina’s. Om dit te controleren dient steekproefgewijs te worden gecontroleerd. Voorzie hiervoor tijdelijk vrijwilligers of jobstudenten.
Vaak worden metadata automatisch door de scannersoftware en andere verwerkingsprogramma’s automatisch in het bestand ingeschreven. Wanneer deze veranderen, wijst dit meestal op een verandering van de scanworkflow door de leverancier. Dit kan leiden tot een verschil in de scankwaliteit. Verwijs naar de proefscan en vraag dat dezelfde embedded metadata worden gebruikt.
Tools die voor de extractie van embedded metadata kunnen worden gebruikt zijn het gratis exiftool en het gratis imagemagick. (commando identify)
Dit houdt in dat wordt gecontroleerd of de mappenstructuur goed zit, de filenames en andere structurele metadata.
Wat betreft filenames en structural metadata kan veel zelf worden ingevuld in de materiaalvoorbereiding. In principe kunnen na wat excelwerk zelf de bestandsnamen worden afgeleid. Op die manier kan controle vrij automatisch gebeuren. Een andere mogelijkheid is om de bestandsnamen softwarematig te controleren aan de hand van scripts. Probeer hiervoor eventueel samen te werken met PACKED, VIAA of een andere speler.
METS-files controleren is moeilijker. METS-bestanden kunnen wel automatisch worden gecontroleerd op well-formedness, maar om de validiteit van de METS te controleren is nog een apart op te stellen .xsd nodig. Daarnaast moet nog worden gecontroleerd of de METS wel voldoet aan het particuliere sjabloon.
In het project zijn enkele METS-bestanden gewoon handmatig gecontroleerd. Aan de leverancier werd op basis van de METS-bestanden ook een excelexport opgevraagd om beschrijvende metadata te controleren. Zet ook hiervoor een vrijwilliger of jobstudent in.
Om de validiteit van de METS te controleren is tijdens het architectuurtijdschriftenproject gebruik gemaakt van de gratis tool EditiX. Een andere tool, Oxygen, is veel beter, maar duur. Door gebruik te maken van een trialversie is echter veel mogelijk.
Fixity metadata zijn gewoon de checksums die behoren bij een bepaald bestand. Fixity controleren is het gemakkelijkst wanneer de leverancier de bestanden aanlevert in een bagit-formaat. Dit laat automatische controle van de fixity toe.
Vraag je de leverancier om beschrijvende metadata aan te leveren, dan is automatische controle hiervan moeilijk te automatiseren is.
De bestanden die worden aangeleverd moeten van het juiste bestandsformaat en het juiste profiel zijn. Controleer dus:
Bestandsformaat
Resolutie
Kleurprofiel