Læs også:
Her gemmes nogle af verdens bedst beskyttede data
Web-hotellet og storage-leverandøren One.com har efter et flere dage langt nedbrud fået alle kunders domæner i luften igen.
Det siger Thomas Darré Medard Frederiksen.
Han fortæller, at omkring otte procent af hjemmesiderne stadig er i read-only mode, som betyder, at de ikke virker, som de skal.
Det skyldes, at to centrale filsystemer natten til søndag blev ødelagt som følge af en strømafbrydelse.
Filsystem ødelagt
Ifølge direktøren blev problemerne med filsystemerne udløst af en ellers rutinemæssig test af nødstrømsanlæggene hos leverandøren Interxion, hvor One.com drifter deres udstyr.
"Det sker med jævne mellemrum for at teste, at hele deres setup omkring UPS'er og dieselgeneratorer fungerer," siger Thomas Darré Medard Frederiksen.
Men noget gik helt galt.
Strømmen til central storage
One.com's udstyr får hos leverandøren strøm fra en række stikkontakter, der sætvis får strøm fra to separate strømudtag, som igen har hver sin egen nødstrømsforsyning.
Hvis strømmen ryger i kontakt A, får udstyret i stedet strøm fra kontakt B.
"Natten mellem lørdag og søndag, klokken 03.30, går strømmen til vores centrale storage. Og det er jo noget underligt noget. For det skal den jo ikke gøre," siger Thomas Darré Medard Frederiksen.
Derfor går systemerne ned, og filsystemerne viser sig at være ødelagt, og kan ikke startes igen, fordi man så risikerer at ødelægge de gemte data.
"Der skulle så gang i en fejlrettelse, som vi siden hændelsen har arbejdet i tæt samarbejde med Hitachi Data Systems om at løse," siger han.
Her er den kedelige fejl i stikkontakterne
Hos Interxion fortæller administrerende direktør Peder Bank, at firmaet natten til søndag rutinemæssigt gennemførte den årlige fuldskala-test af nødstrømsanlæggene ved at afbryde bystrømmen og påtvinge infrastrukturen et fuldt strømtab, som er den værst tænkelige situation for udstyret. Derfor er proceduren nøje forberedt.
Han fortæller, at firmaet i denne test flytter en belastning på størrelse med en landsby, som skal flyttes over, synkroniseres og efterfølgende kobles ind igen, når by-nettet kommer tilbage.
"Vi trækker det store stik fra Dong. Og så skal vi se, at hele pivetøjet spiller, at det slår over på batterier, og at det slår hele datacenteret over," siger Peder Bank.
Uheldigvis viser det sig under testen, at det ene UPS-system er defekt og lukker ned.
Og det afslører en rigtig kedelig fejl i et af de sæt stikkontakter, som One.com benytter til deres centrale filsystemer.
Mærket forkert op
Den ene stikkontakt er nemlig mærket forkert op, således at de to stikkontakter ikke får strøm fra hver sin kreds, men fra samme sted.
"Det er ét plug-sæt ud af bogstaveligt talt tusinder. Det gør det ikke mere acceptabelt, for det er ikke godt nok," siger Peder Bank.
Han fortæller, at Interxion er ved at gennemgå testproceduren og kigge på logs fra det pågældende plug-sæt, som i øvrigt blev fikset kort efter opdagelsen af fejlen.
"Vi har elektrikerens navn, nummer og fingeraftyk, vi har hele CV'et på det her plug-sæt. Men der er jo et eller andet der ikke er godt nok, når det her kan ske. Og det er min opgave at sikre, at vi gør det endnu bedre, så det ikke sker igen," siger Peder Bank.
Derfor har det taget så lang tid for One.com
Hos One.com fortæller Thomas Darré Medard Frederiksen, at langt de fleste kunders hjemmesider kører normalt, men at den sidste del af det ene filsystem af sikkerhedshensyn skal kontrolleres færdig, inden firmaet åbner for kundernes skriveadgang til diskene.
Det tager jo flere dage det her. Kunderne vil sikkert gerne vide, hvorfor I ikke kunne gøre det hurtigere?
"Jeg er også selv meget frustreret over, at situationen er, som den er. Men der er tale om så store datamængder, at det tager meget lang tid at sikre, at alt data og systemerne er i orden. Og vi prioriterer det rigtigt højt at sikre kundernes data," siger Thomas Darré Medard Frederiksen.
One.com valgte ifølge direktøren at reparere filsystemet fremfor at benytte et sekundært system med back-up data, fordi det ville have betydet tabt data fra det seneste døgn og periodevis dårligere performance, fordi det sekundære system ikke er helt magen til driftssystemet.
"Derfor valgte vi at få det oprindelige filsystem i luften, selvom vi er kede af, at det har påvirket vore kunders websites i en alt for lang periode," siger Thomas Darré Medard Frederiksen.