dinsdag 15 februari 2011

Is "JPEG compressed TIFF" geschikt als archiefexemplaar?


Momenteel ben ik bezig met het opstellen van een handboek vervanging voor een gemeente. Dat handboek is de basis voor de aanvraag voor een machtiging voor vervanging van archiefbescheiden bij Gedeputeerde Staten van de provincie, waar deze gemeente onder valt. Eén van de zaken die bij het schrijven van het handboek naar voren kwam, was het gebruik van JPEG compressed TIFF als archiefexemplaar in het document management systeem. 

Compressie

(Vanaf hier schrijf ik bestandsnamen niet meer in hoofdletters.)
Ik had nog nooit gehoord van de mogelijkheid om jpeg-bestanden in tiff-bestanden op te nemen, maar het blijkt al vrij lang te bestaan, getuige onder andere een Technical Note uit 1995.

Bij vervanging worden papieren archiefbescheiden op zodanige wijze gedigitaliseerd (en daarna beheerd), dat de digitale reproductie kan gelden als nieuw authentiek en integer 'origineel'. Bij de vervangingsprocedure wordt veel aandacht besteed aan het digitaliseringsproces zelf: het scanproces, het bestandsformaat, de controle enzovoort.

Bestandsformaten
Over bestandsformaten is altijd veel discussie, maar over het algemeen gaat de Provinciale Archiefinspectie (die het machtigingsverzoek namens Gedeputeerde Staten beoordeelt) uit van scannen in tiff en langdurig opslaan in pdf/A1b. Overigens is het langdurig opslaan in tiff zeker niet verboden; het is alleen niet zo praktisch. Jpeg wordt niet geaccepteerd, omdat het een lossy bestandsformaat is, maar vooral omdat gecomprimeerde bestandsformaten grotere risico's met zich meebrengen bij fouten binnen het bestand. Simpel gezegd: als er binnen een ongecomprimeerd tiff-bestand één bit 'omvalt', dan is er één bit verloren gegaan. Als binnen een gecomprimeerd bestand één bit omvalt, dan vertegenwoordigt dat een verzameling bits naar rato van het compressiepercentage.

Maar wat te doen met jpeg-bestanden in tiff-bestanden? Uit een door mij gestarte discussie op twitter maakte ik op dat de basis van zo'n bestand toch jpeg is. En dat betekent dat het niet geschikt is voor vervanging, dus voor het archiveren van blijvend te bewaren archiefstukken.

Nut van jpeg compressed tiff
Waarvoor gebruik je jpeg compressed tiff dan wel?
Ten eerste is het een mogelijkheid om meerdere jpeg-bestanden in één bestand weer te geven. Tiff kan dat namelijk als multiple-tiff (formeel: multi-page) en jpeg niet. Feit is overigens dat zoiets ook kan via pdf, een veel meer gebruikt bestandsformaat. Beide bestandsformaten (tiff en pdf) zijn 'eigendom' van Adobe.
Ten tweede is het een mogelijkheid om jpeg-bestanden veilig te 'archiveren'. Dus als je originele bestand een jpeg-bestand is, dan is tiff een zekere container. Maar er zijn efficiëntere en effectievere manieren om dat te doen.

Persoonlijk zie ik het nut van jpeg compresed tiff niet zo. Maar als iemand nog andere argumenten kent, dan hoor ik ze graag!

Storify
Van de tweet-discussie van gisteren over dit onderwerp heb ik de hieronder verbeelde Storify gemaakt. Ik begon met een tweet in het Engels, zodat de hashtag #askanarchivist internationaal gelezen zou worden. Ik kreeg alleen antwoorden uit Nederland, in het Nederlands. Maar wel erg nuttig!



Plaatjes
http://www.flickr.com/photos/iisg/5062843899

2 opmerkingen:

Leon van Oosterom zei

Chido,


Vanuit de meeste DM systemen waar scanfunctionaliteit in geïntegreerd is wordt JPEG compressie in een TIFF file toegepast om het mogelijk te maken een document bestaande uit meerdere pagina's als één bestand geplaatst te krijgen in het DM systeem. Dat lukt niet met JPEG files want die laten geen meerdere pagina's in één bestand toe.
Hier is op zichzelf niets op tegen, tenzij je uit principe tegen kleurcompresssie bent. De archiefwet staat het in ieder geval toe mits er maar geen sprake is van dataverlies.
Het advies voor de betreffende gemeente zou mijns inziens zijn om de documenten als PDF/A op te slaan. Daarbinnen zit dan weliswaar de tiff file met Jpeg compressie verpakt, maar omdat het geheel als PDF/A bevroren is voldoet het aan de bepalingen van de archiefwet en is dus zo toekomstvast als op dit moment mogelijk is. Duidelijk is natuurlijk dat men voorzichtig moet zijn met de mate van compressie. Teveel leidt immers tot informatieverlies.
In de praktijk blijkt dat wanneer een zakelijk document wordt gecomprimeerd tot ongeveer 85% van zijn oorspronkelijke kleurnuances, dit niet zichtbaar is voor het menselijk ook bij reproducties. Zelfs tot 70 – 75% is er geen sprake van significant informatieverlies. Let wel, dit gaat op voor zakelijke documenten en niet voor afbeeldingen of andere cultuurhistorische beeldmaterialen.
Het papierwerk uit de dagelijkse praktijk van een gemeente kan echter prima gecomprimeerd worden. Dat is ook nodig want een document gescand op 300 DPI in kleur ongecomprimeerd levert 25Mb aan data op (dus 10 meter archief beslaat 1 Terabyte). Gecomprimeerd echter maar ongeveer 400Kb.
Gemeenten willen in hun DM systemen niet iedere bladzijde apart moeten voorzien van indexdata. Het is te bewerkelijk en bepaald niet gebruikersvriendelijk. Als een document geopend dient te worden dan wil de gebruiker immers in één keer alle bladzijden van dat document kunnen doorbladeren. Dat is de reden dat er redelijk veelvuldig wordt gewerkt met TIFF files voorzien van een JPEG compressie.


Hier is op zichzelf niets op tegen, tenzij je uit principe tegen kleurcompresssie bent. De archiefwet staat het in ieder geval toe mits er maar geen sprake is van dataverlies.

Het advies voor de betreffende gemeente zou mijns inziens zijn om de documenten als PDF/A op te slaan. Daarbinnen zit dan welliswaar de tiff file met Jpeg compressie verpakt, maar omdat het geheel als PDF/A bevroren is

Archiefvernietiging met certificaat zei

Wel leuk om te wten dat ze een TIFF file inzetten om het digitale archief op te bouwen:) Je merkt inderdaad dat ze nu steeds vaker het oude, papieren archief omzetten naar een cloudoplossing!