Virksomheder er som gale kattedamer, når det kommer til data: Intet bliver smidt ud, alt bliver samlet og gemt.
Det er billedet fra storage-konferencer. Og det modificerede begreb Moores lov, at den samlede datamængde fordobles hvert andet år, har aldrig været mere aktuelt.
Men med mere data kommer et stadigt stigende behov for storageplads og derved flere harddiske.
Og der bliver i høj grad stadig brugt mekaniske harddiske, som har en tendens til at gå i stykker på et tidspunkt.
Den amerikanske storage-virksomhed Backblaze har frigivet statistik på selskabets 40.000 harddiske, som har været i brug i over fire år, og de har fundet fem parametre i S.M.A.R.T.-overvågningssystemet, der indikerer at harddiske snurrer på sidste omgang.
Læs også: Vær S.M.A.R.T.: Hold øje med din harddisk
Backblaze definerer en harddisk-fejl, som en harddisk der bliver taget ud af tjeneste, enten fordi den ikke virker længere, altså ikke kan starte, skrive/læse eller aktiveres med kommandoer. Eller fordi den viser tegn på snart at skulle udskiftes.
Fem parametre der batter
S.M.A.R.T. er et akronym for Self-Monitoring, Analysis and Reporting Technology, og er et stykke overvågningssoftware, som er bygget ind i alle harddiske.
Med det rigtige program til at læse statistikken fra harddisken, kan der trækkes data på 70 forskellige parametre ud.
Men det er altså kun de følgende fem tal, som Backblaze bruger til at forudse hvilke harddiske, der skal skiftes:
- SMART 5 - Reallocated_Sector_Count: Hvor mange gange harddisken har været nødt til at flytte data fra en ødelagt sektion af disken til en anden.
- SMART 187 - Reported_Uncorrectable_Errors: Hvor mange ugenoprettelige læsefejl disken har haft.
- SMART 188 - Command_Timeout: Antallet af afbrudte operationer pga. time-out på harddisken.
- SMART 197 - Current_Pending_Sector_Count: Antallet af ustabile sektorer på harddisken; altså hvor der fysisk ikke kan skrives på grund af datatab.
- SMART 198 - Offline_Uncorrectable: Antallet af uoprettelige fejl ved læsning/skrivning af en sektor på harddisken.
Fælles for alle indikatorer er, at værdier over nul sætter harddisken på ventelisten til udskiftning.
Flere indikatorer på vej
Disse fem parametre er sikre nok, men allerede nu mener Backblaze at kunne se et mønster i to andre, nemlig SMART 1 og 12.
SMART 1 giver et tal for hvor mange læsefejl disken har haft, men fordi alle harddisk-producenter angiver dette tal på forskellige måder, er det svært at komme med en fast tommelfingerregel.
Statistik viser dog, at denne parameter har en indflydelse.
SMART 12 er en angivelse af, hvor mange gange strømmen har været taget fra harddisken.
Jo flere gange, jo større sandsynlighed for fejl.
Men det kan ikke endeligt siges, om det er på grund af, at harddisken bliver tændt og slukket, eller om det er det arbejde der foretages, mens den er slukket eller en helt tredje ting, som betyder en større fejlrate.
Læs også:
Statistik over 35.000 diske i stort datacenter: Disse harddiske er mest holdbare