Artikel top billede

Microsoft betaler bod til kunder for cloud-nedbrud

Microsoft betaler bod til de kunder, der blev ramt af det store nedbrud i Azure-cloudtjenesten fornylig. Se her, hvad der gik så galt, at tjenesten crashede.

Computerworld News Service: Som bod for en række udfald på grund af en softwarefejl i selskabets cloud-platform Azure tilbyder Microsoft de ramte kunder 33 procent rabat for den periode, de var uden forbindelse 29. februar.

Du kan læse mere om nedbruddet her.

Ikke alle af Azures services var ramt af nedbruddet.

Der gives kun rabat til kunder af de services, der var påvirket af fejlen, oplyser Microsoft via bloggen fra teamet bag Windows Azure.

Problemet stammede fra to overlappende omstændigheder: At datoen 29. februar kun indtræffer hvert fjerde år og at der udveksles et certifikat med et års gyldighed, når Azure initialiserer virtuelle maskiner til kundernes anvendelse.

Certifikater udstedt 28. februar i år fik tildelt en gyldighed indtil 29. februar 2013, hvilket er en dato, der ikke vil indtræffe, og som derfor blev tolket som ugyldig.

Forsøgte igen og igen

Denne fejl forårsagede, at systemet igen og igen forsøgte at gennemføre handlingen, der konsekvent mislykkedes.

Det fik systemet til at konkludere, at det var hardwaren, hvorpå de virtuelle maskiner kørte, den var gal med.

Det fik systemet til at forsøge at migrere de fejlramte virtuelle maskiner til anden hardware i samme Azure-klynge, der består af omtrent 1.000 fysiske servere.

Det mislykkedes selvfølgelig også de migrerede virtuelle maskiner at initialisere af den samme årsag.

Således blev mere og mere hardware automatisk bedømt til at have nedbrud, indtil systemet nåede en vis grænse, hvorefter alle forsøg på at migrere de virtuelle maskiner på nogen server i de påvirkede klynger stoppede.

Nedsat driftsniveau

Det gjorde det muligt for disse klynger alligevel at forblive i drift ved nedsat driftsniveau, forklares det på bloggen.

Azure lukkede ned for kundernes service management-platform, så kunderne ikke havde mulighed for at tilføje applikationer eller udvide kapaciteten til applikationer i drift, da begge dele ville have forværret situationen ved at forsøge at oprette endnu flere nye virtuelle maskiner.

"Dette er første gang vi har taget dette skridt," skriver Microsoft på bloggen. Alle kørende applikationer forblev i drift.

Læs også: Microsofts store cloud-tjeneste ramt af nedbrud.
 

Så lang tid tog det

Det tog 13 timer og 23 minutter at rette fejlen i alle på nær syv Azure-klynger. Disse syv klynger var midt i en software-opdatering, så de udgjorde et separat problem. Skulle man opgradere de værtsagenter og gæsteagenter, der ville udveksle de ugyldige certifikater, til de nyeste versioner med det samme, eller skulle man genoprette de gamle versioner og derefter udrulle rettelsen?

Det blev besluttet at gøre det sidste, hvilket dog ikke var nogen succes, fordi man ikke samtidig genoprettede en tidligere version af det plugin, der konfigurerer de virtuelle maskiners netværk. Det nye netværks-plugin var ikke kompatibel med de gamle værter og gæster. Derfor var resultatet, at alle virtuelle maskiner i disse syv klynger var uden forbindelse til netværket.

De ramte klynger inkluderede servere til Access Control Service (ACS) og Windows Azure Service Bus, som begge oplevede nedbrud. Alle problemerne var ifølge bloggen først løst 1. marts klokken 10.15 dansk tid.

Microsoft er ved at indføre tre forholdsregler, der skal forhindre, at noget lignende sker igen. For det første vil selskabet teste for problemer i forhold til tidsangivelser i dets software. For det andet vil Microsoft ændre i den automatiske fejldiagnosticering, så systemet ikke uden videre konkluderer hardwarefejl i sådanne omstændigheder. Og for det tredje vil Microsoft gøre det muligt at lukke trinvist ned for kundernes administrationsdel. Det vil gøre det muligt at blokere for oprettelsen af nye virtuelle maskiner eller udvidelse af de eksisterende men samtidig tillade en vis administration af eksisterende virtuelle maskiner.

Selskabet er også ved at opgradere sin mulighed for at opdage og håndtere fejl hurtigere. Der vil også blive foretaget ændringer, så kundernes kontrolpanel i højere grad vil forblive tilgængelig, når der er fejl.

Da alle kundeservice-telefonerne var optaget, måtte mange kunder vente længe for at få hjælp.

Derfor reevaluerer Microsoft bemandingen på området og overvejer at gøre bedre brug af blogs, Twitter og Facebook til oplysning om problemer.

Microsoft er desuden ved at udvikle interne softwareværktøjer til brug ved nedbrud, ligesom selskabet også prioriterer en hurtigere genetablering af kundeservice og at give kunderne bedre indblik i, hvordan arbejdet med at genetablere driften skrider frem.

Læs også: Microsofts store cloud-tjeneste ramt af nedbrud.

Oversat af Thomas Bøndergaard




Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
KEYBALANCE A/S
Udvikling og salg af økonomisystemer samt CRM og MPS. Systemer til blandt andet maskinhandlere, vvs-branchen, vognmænd, låsesmede,handelsvirksomheder

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
Fremtidens digitale kraftværk: Tag styringen med dit ERP-system

I dag ligger moderne ERP-platforme i skyen og opdateres adskillige gange årligt. Samtidig får man nærmest pr. automatik adgang til en omfattende portefølje af integrationer, add-ons, 3. partsmoduler, BI og avancerede funktioner til AI/ML-understøttelse af forretningsprocesser. På denne dag går vi derfor i dybden med, hvad det betyder for din virksomhed. Uanset om I har migreret til en cloudbaseret platform eller planlægger at gøre det indenfor en overskuelig fremtid.

21. november 2024 | Læs mere


Sådan bruger du aktivt AI til at styrke din cybersikkerhedsindsats

Kan AI styrke din cybersikkerhed og forebygge f.eks. ransomwareangreb? Ja – og endda særdeles effektivt! På denne konference kan du blive klogere på, hvordan du i praksis anvender AI til at styrke dit sikkerhedsniveau – og gøre cyberbeskyttelsen mere fleksibel.

27. november 2024 | Læs mere


Styrk din virksomhed med relevant, pålidelig og ansvarlig AI integration med SAP

Kom og få indsigt i, hvordan du bruger AI til at transformere og effektivisere dine arbejdsgange. Vi kigger nærmere på AI-assistenten Joule, der vil revolutionere måden, brugerne interagere med SAP’s forretningssystemer. Og så får du konkret viden om, hvordan du kommer i gang med at bruge AI til at booste din forretningsudvikling.

03. december 2024 | Læs mere