Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den CTO d. 3. februar 2006.
Alle data er ikke lige meget værd. Det bør få indflydelse på måden, man gemmer dem på, mener datalagringsfirmaerne.
Kun tyve procent af udgiften til datalagring går til diske og andet udstyr. Langt den største del af omkostningerne skyldes personale og administration. Derfor kan det på længere sigt ikke betale sig at løse problemet med de stigende datamængder ved at købe større harddiske - i stedet skal virksomhederne prioritere, hvilke data de vil gemme.
Det mener Staffan Strand, der ud over at være konsulent hos datalagringsfirmaet Hitachi Data Systems også forsker i datalagring ved University of Minnesota.
- Hidtil har virksomhederne købt sig fra problemet. Det har ikke været dyrt, da kapacitet i forhold til pris på harddiske typisk fordobles hver 13-14. måned. Men det er ved at blive dyrt i administration, siger han.
De stigende datamængder dokumenteres blandt andet af analysefirmaet IDC, der taler om en årlig vækst på 60 procent i mængden af data, der lagres på computere. Væksten er mindst på mainframes med godt 10 procent, mens andre systemer tegner sig for resten. Ifølge analysefirmaet Strategic Research er 51 procent af disse data imidlertid unødvendige at gemme, og 22 procent er duplikater.
Løsningen hedder virtualisering og automatisering. Med virtualisering kan en stor mængde forskellige diske opfattes og styres som en samlet pulje af diskplads. Automatisering giver mulighed for at styre placeringen af data ud fra regler.
Ved hjælp af virtualisering og automatisering kan virksomhederne opbygge datalagringssystemer, hvor data gemmes ud fra prioriteringer. Nogle data bruges ofte. Andre gemmes af hensyn til lovgivningen, men skal i praksis aldrig bruges. Med et hierarkisk system kan man fordele data på medier, der passer til deres profil: De ofte anvendte data lægges på hurtige diske, mens de kopier, der skyldes lovkrav, placeres på bånd.
Det kræver imidlertid en indsats af virksomheden: Den skal klassificere sine data.
- Det vil typisk tage udgangspunkt i applikationerne. Hvad er den enkelte applikations krav til oppetid? Hvilke krav stiller den til ydeevnen - hvor hurtigt skal den bruge data? Hvor store datamængder anvender den? Hvilke lovgivningsmæssige krav er der til de data, den bruger? Jeg anbefaler, at man starter med at se på krav til oppetid og ydeevne, siger Staffan Strand.
Begrebet er kendt som Information Lifecycle Management (ILM). Det har brancheorganisationen Storage Networking Industry Association (SNIA) defineret således: "ILM består af politikker, processer, praksisser og værktøjer, der anvendes til at samordne forretningsværdien af information med den mest passende og omkostningseffektive it-infrastruktur fra det øjeblik, informationen dannes, og til dens sidste anvendelse."
Staffan Strand erkender, at det kan være en vanskelig opgave at klassificere data til brug i ILM. Men her kommer virtualiseringen til hjælp: Hvis man senere opdager, at en type data er klassificeret forkert, er det let at flytte den, når man har et virtualiseret system til at styre data med.
Han har gode erfaringer med systemer til at effektivisere lagringen af e-mails. De opdager for eksempel, når den samme vedhæftede fil er gemt i flere mails, og sørger for, at kun et eksemplar bliver gemt. Typisk giver de også mulighed for at vælge, at de ældste eller største mails automatisk gemmes i arkiv - det vil sige på det langsomste medie.
Billedtekst:
først analyse - Når data skal gemmes hierarkisk, skal man analysere applikationernes behov og lade det afgøre, hvad der gemmes hvor, siger Staffan Strand.
Foto: Torben Klint