woensdag 18 mei 2011

Hoe duurzaam is JPEG2000?

Via Ingmar Koch werd ik geattendeerd op een artikel van Johan van der Knijff (KB), getiteld: JPEG 2000 for Long-term Preservation: JP2 as a Preservation Format.


Het in het engels gestelde artikel wordt als volgt samengevat:
Despite the increasing popularity of JPEG 2000 in the archival community, the suitability of the JP2 format for long-term preservation has been poorly addressed by existing literature. This paper demonstrates how some parts of the JP2 file specification (related to ICC profiles and grid resolution) contain ambiguous information, leading to a situation where different software vendors are interpreting the standard in slightly different ways. This results in a number of risks for preservation. These risks could be reduced by applying some minor changes to the format specification, in combination with the adherence to the updated standard by software vendors.

Hoe zeker zijn we er van dat er bij toekomstige migratie geen verlies optreedt? En - als we kiezen voor emulatie als behoudstrategie - hoe gedragen de bestanden zich in een ge-emuleerde omgeving? Dat zijn de belangrijkste vragen in het stuk van Van der Knijff.

Kleurenbeheer
Het eerste dat Van der Knijff constateert is dat een strikte interpretatie van de voorwaarden voor kleurenbeheer binnen JPEG2000 leiden tot een zodanige beperking van het op te nemen materiaal, dat full colour objecten niet juist weergegeven kunnen worden, omdat bepaalde kleuren niet toegestaan zijn.  Van der Knijff vermoedt dat de voorwaarde die tot deze beperking leidt een onbedoeld foutje in de specificatie is, die vrij simpel aan te passen is.

ICC-profielen
Het artikel beschrijft daarna een test waarin een aantal TIFF-bestanden met steeds een andere veelgebruikte encoder worden omgezet naar JPEG2000. De test keek specifiek naar de ICC-profielen, die bedoeld zijn om informatie over kleur van het ene naar het andere platform en/of apparaat te vertalen. Slechts één van de zeven encoders gaf exact het gewenste resultaat.

Resolutie
JPEG2000 kent twee typen resolutie die optioneel zijn en naast elkaar gebruikt kunnen worden. Een bestand kan dus één van de twee, beide of geen van beide typen bevatten.

Het eerste type (capture resolution) vermeldt de resolutie die het 'digitaliseringsapparaat' gebruikt heeft, zoals een scanner of een fototoestel. Het tweede type (default display resolution) legt de resolutie voor weergave vast.

Nadeel is dat deze typen eigenlijk uitgaan van gedigitaliseerde bestanden en niet zozeer van born-digital omstandigheden. Zeker bij bij default display type is het onduidelijk waarvoor het in die situatie gebruikt mag worden. Gevolg is dat de daar genoemde resolutie niet eenduidig geïnterpreteerd kan worden. Juist bij migratie kan dit ongewenste gevolgen voor de duurzaamheid hebben of een onnodig complicerende factor zijn.

Ook hier werd een test uitgevoerd. De eerder genoemde encoders hadden geen van alle de capture resolution gebruikt zoals voorgeschreven in de formaatspecificaties. Daarnaast waren er verschillen in het wegschrijven van de resolutie; als capture resolution, danwel als display resolution. Inéén geval werd helemaal niets opgenomen.

Gevolgen voor behoud
Ik laat de schrijver zelf maar weer even aan het woord:
From a preservation point of view, the central issue here (as already stated in the introduction to this paper) is what may be the impact of this on rendering existing images in the future, and the preservation of information in any future migration to some new format. There are several problems here.

First of all, a strict adherence to the format specification would simply rule out the use of ICC profiles in most cases. This would make the format unsuitable for any applications that require a colour gamut beyond sRGB space.
[...]
...one cannot completely rule out that future decoders may ignore embedded "display" profiles, which is a potential risk for future migrations.

From a preservation point of view, the main risk that results from the current situation with JP2's resolution header fields is that resolution information may be lost in future migrations.
[...]
Some tools will internally substitute the missing resolution fields with default values. For instance, if Adobe Photoshop cannot find the "capture resolution" fields, it assumes a default value of 72 ppi. If such files are subsequently re-saved, it will actually write this (entirely fictional) value to the resolution fields of the created file. Other tools may behave in a similar way, which introduces the risk that resolution information may change after a migration.
Van der Knijff geeft daarna een aantal oplossingen aan, die vooral te maken hebben met de definities en interpretaties van het formaat. Een paar relatief simpele ingrepen aan de bron zouden het JPEG2000 formaat duurzamer kunnen maken. De schrijver concludeert aan het einde van het artikel dan ook:
These issues could be remedied by some small adjustments of JP2's format specification, which would create minimal backward compatibility problems, if any at all. For the ICC profile issue, a proposal for such an adjustment is already under way from the JPEG committee, and I have suggested a possible solution for the resolution issue here. In addition, it would be necessary that software vendors adhere to the modified standard. Small as they may be, such changes could significantly improve the suitability and acceptance of JP2 as a preservation format.
Zelf zou ik adviseren dat archieven nog heel even wachten voordat ze JPEG2000 als duurzaam formaat in hun behoudstrategie opnemen.

Overigens heb ik het artikel van Van der Knijff in vrij grove hoofdlijnen samengevat. Als ik daarbij essentiële detaillijnen ben vergeten te schetsen, dan hoor ik het graag. Uiteindelijk is het natuurlijk het beste als u het artikel zelf leest.

(Zijdelings gerelateerd aan dit stuk is het blog over JPEG compressed TIFF dat ik in februari heb geschreven.)

Plaatjes
http://www.flickr.com/photos/misshaley/890634016

Geen opmerkingen: