På Statsbiblioteket i Århus arbejder afdelingen for Digitale Ressourcer med at få overført deres kæmpesamling af musik til en digital form. Nationaldiskografien, som samlingen kaldes, består af alt fra gamle voksvalser til sidste års danske cd-udgivelser. Men en ting er at digitalisere gammel musik og få dem lagt ind på en harddisk. Hvordan lagrer man dataene, så de ikke forfalder?
Det er et spørgsmål, de arbejder med på afdelingen for Digitale Ressourcer ved Statsbiblioteket i Århus.
Funktionsleder Bjarne Søgaard Andersen fortæller om deres arbejde for at vi også kan høre den danske musik i fremtiden. Afdelingen udvikler selv software, men er på vej til at flytte til nogle standardsystemer.
Metadata holder styr på samlingen
»Selve digitaliseringen, hvor man går fra fysisk dims til en digital kopi, er typisk ikke noget vi selv udvikler.«
Statsbiblioket har til formålet indkøbt et system bygget til digitalisering af lyd.
"Når vi så har fået lavet den digitale kopi, skal vi have flyttet den over på vores langtidsbevaringssystem, plus vi skal have tilknyttet nogle metadata, så vi kan finde det igen. En ting er, at vi digitaliserer for at bevare det. Noget andet er, at vi også skal gøre materialet tilgængeligt. Det er så fordelen ved at have digitale kopier. Der er ikke kun en person, der kan låne pladen.«
Metadata er beskrivelsen af de originale medier, helt ned til muggen på de gamle voksvalser.
Tre digitale kopier på redundante diske
Afdelingen laver tre digitale kopier, som bliver lagret i et selvudviklet system, et Digital Object Management System(DOMS). Systemet holder øje med filerne og metadataene.
»Når vi snakker digital langtidsbevaring, skelner vi mellem to typer bevaring, bitbevaring og logisk bevaring. Bitbevaringen består udelukkende i at holde liv på i de originale bits, så de ikke forgår eller forvansker. Det gør man ved at have flere digitale kopier af alting, og løbende checke bitsene. Det foregår typisk med checksums-algoritmer, hvor man sammenligner checksummen af de tre kopier.«
Den logiske bevaring er, hvordan de digitale kopier bliver lagret. De digitale kopier bliver lagret, og checksummen lagret sammen med dem. Så har holdet fire checksummer at arbejde med. Hvis en kopi ved et check viser sig at være blevet forvansket, overskriver de den forvanskede kopi med en god kopi.
Bits skal bevares
Men de digitale kopier er ikke perfekte. For bevaringsformålet peger Bjarne Andersen på, at så længe man kan opleve, hvad der engang var, er det fint.
»Det komprimerede format er indenfor bevaring en potentiel fælde, for komprimerede formatter kan lettere forvanske,« siger Bjarne Andersen. Derfor har Statsbiblioteket valgt streamede formater, som MPEG, der ikke er så kritiske, hvis en bit skulle forvanskes uigenkaldeligt.
»Vi kører typisk checksum en gang om måneden. Men det er noget vi må kigge på, om vi kan blive ved med. Jo større datamængden er, jo længere tager det at checksumme.«
Når dataene er lavet, bliver de lagret på et RAID-system.
»De storage-systemer vi bruger har indbyggede fejlretningsalgoritmer. Leverandøren er ansvarlig for installationen, og det er leverandøren, der overvåger fejl. Og fordi det er et RAID-system, har vi hotsparediske. Så systemet kan i virkeligheden have regenereret sig selv, da det opdager fejlen. Så kommer leverandøren og skifter en disk, så nogle gange opdager vi ikke, at der har været fejl, før vi får en log over deres besøg.«