Læs også: Microsoft- og Amazon-skyerne dræbt af lyn.
Computerworld News Service: Amazon Web Services har lært lektien efter det store nedbrud, der ramte selskabets datacenter i Dublin i Irland fornylig.
Det kan du læse mere om her.
Selskabet vil nu arbejde på at forbedre redundansen i strømtilførslen samt load balancing.
Desuden vil selskabet arbejde med måden, der kommunikeres på, når noget går galt med dets cloud, lover selskabet i en opsummering af hændelsen.
Sådan gik det galt
Denne selvevaluering går i dybden med årsagerne til nedbruddet, der påvirkede tilgængeligheden af Amazons EC2 (Elastic Compute Cloud), EBS (Elastic Block Store), RDS-databasen samt Amazons netværk.
Service-forstyrrelsen begyndte 7. august klokken 10:41 lokal tid, da Amazons elselskab havde driftssvigt i en transformer.
Først lød forklaringen på lynnedslag, men elselskabet mener nu, at dette ikke var den egentlige årsag og undersøger stadig sagen, fortæller Amazon.
Normalt sker der det, når den primære strøm går, at backup-generatorer sømløst tager over.
Programmable Logic Controllers (PLC'ere) sørger for, at den elektriske fase er synkroniseret mellem generatorerne, før de bringes online.
Stor fejl
Men i dette tilfælde blev en af PLC'erne ikke færdig, sandsynligvis på grund af en stor fejl i forhold til jordforbindelse, hvilket ifølge Amazon desuden førte til nedbrud i nogle af generatorerne.
For at forhindre at noget sådant sker igen, vil Amazon tilføje redundans og mere isolering til sine PLC'er, så de er bedre isoleret fra andre nedbrud, forklares det.
Amazons cloud-infrastruktur er inddelt i regioner og såkaldte Availability Zones eller tilgængelighedszoner.
Regionerne - datacentret i Dublin er for eksempel knudepunkt for EU West Region - består af en eller flere tilgængelighedszoner, som er designet til at være isoleret fra nedbrud i andre zoner i samme region.
Ræsonnementet er, at kunderne kan anvende adskillige zoner for at få en bedre tilgængelighed, hvilket er noget, Amazon arbejder på at forenkle.
På tidspunktet for nedbruddet oplevede EC2- og EBS-kunder med adskillige tilgængelighedszoner i EU West Region ifølge Amazon ingen service-forstyrrelser.
Administrationsserverne blev dog overbelastede på grund af nedbruddet, hvilket påvirkede ydelsen i hele regionen.
Amazon vil desuden implementere en forbedret load balancing, for at forhindre at dette sker igen.
Derudover har Amazon i løbet af de seneste par måneder "arbejdet på en yderligere isolering af EC2-kontrolplan-komponenter, for at sørge for at mulig latens eller driftssvigt i en tilgængelighedszone ikke påvirker vores evne til at behandle signaler til andre tilgængelighedszoner," forklares det i selvevalueringen.
Dette arbejde er stadig igangværende og der vil ifølge Amazon gå flere måneder, før det er afsluttet.
Læs også: Microsoft- og Amazon-skyerne dræbt af lyn.
Oversat af Thomas Bøndergaard