Giver det overhovedet mening med deduplikering længere?
Det lyder måske isoleret set som en lidt underlig udmelding, men den skal forstås i det rette perspektiv.
Der er næppe nogen tvivl om, at ideen med datareduktion var glimrende som udgangspunkt.
For få år tilbage var det nærmest trendy, at datalagringsteknologi skulle indeholde væsentlige elementer af data-reduktion - for eksempel data-komprimering eller data-deduplikering.
I starten arbejdede man med relativt primitive koncepter som "single-instancing", hvor simple algoritmer kunne finde sammenlignelige filer og herefter sørge for, at man kun havde én kopi på sit system - og herved sparede plads.
Sådanne teknikker blev efterfølgende stadig mere avancerede og udviklede sig til at kunne forskelsbehandle data på et ganske granulært niveau - faktisk helt ned i byte størrelse.
Men det er klart, at som disse ting kompliceres, benyttes computeresourcer i stigende grad.
Så man fandt i mange tilfælde særlig gavn af at implementere post-process datareduktion, således at en efterbehandling af data - for eksempel at foretage datareducerende arbejde - skete uden for normal arbejdstid for at undgå eventuel negativ påvirkning.
Deduplikering i datacentret
I de senere år har verdens storageleverandører kæmpet for at være først med in-line-datareduktion. Måske fandt man det særligt passende i forbindelse med finanskrisens fokus på besparende effekter.
In-line-datareduktion betyder, at der sker real-time datareduktion, når for eksempel data bliver skrevet direkte til disksystemer eller lignende, og data deduplikeres i samme omgang.
Med x86-processorens udvikling har man de senere år i stigende grad kunnet håndtere in-line 'dedupe' med stadigt flere kerner i CPU'en, højere clock-frekvens og så videre.
Men det sker ofte alligevel på bekostning af andre processer.
Når der er særligt travlt i butikken, vil man for eksempel helst bruge de fleste resourcer på at servicere forretningen med IO til for eksempel applikationer.
Men deduplikering og komprimering blev opfundet i en tid, hvor storage kapacitet var dyr. Ja faktisk endda temmelig kostbar.
Man havde lav densitet, som ofte betød mange investeringskroner, brugte meget strøm og det fyldte meget i datacentret.
Men storage er ikke så dyrt længere, og det fylder ikke meget. Faktisk har det aldrig været billigere, og selv avancerede flashstorage-komponenter er nede i forbrugerniveau - flashtyper findes i stort set alle telefoner, tablets og er sågar mainstream i enterprise-storagesystemer.
Så er "dedupe" stadig relevant?
Hvad er det så, vi skal bruge deduplikering til? Det er svært at få øje på dets relevans i primærstorage med de hastigt faldende storagepriser, og sammen med den teknologiske udvikling giver det næppe mening at bruge computeresourcer på den slags.
Behovet for compute og IO stiger nemlig stødt i takt med, at applikationerne stiller større krav, og enhederne bliver stadig større - derfor er kapacitet efterhånden noget, man har i overskud.
Derfor har det måske lidt mistet sin relevans eller betydning - i hvertfald lige i den sammenhæng
Men der, hvor der stadig kan være særlig god mening i datareduktion, er i en lidt anden genre - et nødvendigt onde - nemlig backupstorage.
Her kan data under ideelle omstændigheder kommer til at ligge længe uden at blive rørt - måske i årevis - og her drejer det sig om at spare alt, hvad man kan.
For forretningen betaler her for noget, som ikke bliver brugt. Det er en slags forsikring af virksomhedens data, som måske en dag bliver relevant i tilfælde af, at noget skulle gå tabt eller blive ødelagt.
De fleste softwareløsninger på markedet til backupformål indeholder elementer af datareduktion - det vil sige både komprimering og deduplikering af data.
Software kan endda ofte kombineres med hardware designet til backupformål med netop in-line datareduktion for at få det optimale og mest effektive setup til langtidslagring og sikring af kritisk data - ofte med mere end 10 gange reduktion i lagringsbehov over tid.
Man skal huske det, der er vigtigt for forretningen
Efter min mening bør man fokusere på at designe sin storageløsning til at levere netop den performance, forretningen har behov for, og til den mest fornuftige pris pr. gigabyte.
Herefter kan man altid vurdere, om datareduktions-elementer giver virksomheden noget mere for pengene, eller om der er en trade-off - for eksempel med hensyn til performance.
Mange leverandører, som lover in-line-deduplikering eller komprimering af data, vil have væsentlige reduktioner i performance, når sådanne features er slået til.
Nogen leverandører anbefaler sågar, at man helt undlader at bruge deduplikering til trods for, at det findes på featurelisten.
Så deduplikering er formentlig stadig ganske relevant, men sammenhængskraften har ændret sig over tid, og det vil vise sig, om det lidt forblændede fokus på in-line-data-reduktion i primær storage finder en mere nuanceret anvendelse i fremtidens datacenter.