zaterdag 23 maart 2013

Antwerpse oplossingen



De afgelopen maand hadden we in enkele lessen een interessante discussie over PDF/A en XML. Aanleiding was dat ik enkele corrupte PDF-documenten in mijn bestanden aantrof die niet meer te openen zijn. Dat PDF/A door het archiefwezen tot standaard is verheven is een reden om uiterst kritisch naar deze oplossing te kijken. PDF/A blijft PDF, ook al is het een ISO standaard. Het ISO belooft langdurige ondersteuning voor dit formaat, maar dat neemt niet weg dat het een gesloten formaat blijft. Als het bestand corrupt raakt en niet meer te lezen is, kan het niet op een andere manier bekeken worden. Het voordeel van PDF t.o.v. XML is wel dat de layout van de tekst exact hetzelfde blijft. Daarbij moet gezegd worden dat er ondertussen ook een PDF/ODF hybride bestandsformaat bestaat, wat beide min of meer combineert (PDF met een XML wrapper).

Van XML zijn door de jaren heen vele variaties ontstaan, elk voor een eigen doel. De basis is hetzelfde, maar toevoegingen en wijzigingen aan de programmeerschema's hebben aparte bestandformaten opgeleverd, zoals bijvoorbeeld .docx en .odt. Beide formaten zijn gebaseerd op XML, maar zijn niet uitwisselbaar.

Het grote voordeel van XML is dat het voornamelijk een soort platte tekst is, die door elke tekstverwerker/kladblok-variant gelezen kan worden. Dat is ook meteen het nadeel wanneer je document andere elementen bevat. Voordeel is wel dat wanneer een stukje corrupt is, de rest nog steeds te lezen blijft, al dan niet door een ander programma te gebruiken. Daarnaast heeft XML een groot voordeel m.b.t. duurzaamheid: omdat de XML standaarden over het algemeen 'open source' zijn, zal iemand altijd een zogenaamde "parser" kunnen programmeren, die de bestanden kan lezen zoals ze bedoeld waren. Zelfs al zouden we over 50 jaar zijn afgestapt van XML, dan nog zal het mogelijk blijven dit soort bestanden te lezen.

Zover ik weet worden in XML documenten afbeeldingen gecodeerd opgeslagen in de "tekst" van het bestand. MS Word of OO Writer kunnen die code dan weer uitlezen. Dit zou dan trouwens wel een van de "nadelen" zijn, aangezien afbeeldingen niet in de XML zelf te bekijken zijn.

Gelukkig is hier een oplossing voor, maar he tis wel een omweg. Aangezien de bestanden gewoon in Kladblok o.i.d. te lezen zijn, zijn ze te repareren. Je zou heel makkelijk het corrupte deel kunnen verwijderen, waarna het bestand weer gewoon te lezen is. Zolang het niet de plaatjes zijn, die corrupt zijn, kunnen ze op deze manier weer zichtbaar gemaakt worden. Voor wie XML kan programmeren, zou het zelfs mogelijk zijn het corrupte deel (als het klein is) te herschrijven. Interessant zijn hierin de ervaringen van het Stadsarchief Antwerpen. Zij gebruiken XML sinds 2000 en Open Office sinds het live gaan van het e-depot in 2007. Hun XML-oplossing is heel goed gedocumenteerd in de website van
Expertisecentrum DAVID. Het e-Depot is gebaseerd op het Open Archival Information System, dat elke archivaris inmiddels wel zal kennen...

Ooit kwamen wevers en notabelen vanuit Antwerpen de Nederlanden bevolken en brachten ze welvaart in de Gouden Eeuw. Wie weet herhaalt de geschiedenis zich en worden Antwerpse oplossingen wel de meest gangbare- en de meest duurzame. Lees het materiaal van het
Expertisecentrum DAVID grondig door en doe er uw voordeel mee!

Geen opmerkingen:

Een reactie posten