På et møde med Computerworld har IBM løftet sløret for, hvad der rent faktisk gik galt 9. april, da en lang række virksomheders it-systemer gik i sort.
Mødet var arrangeret for udvalgte journalister fra pressen.
På mødet fortalte landechefen for Global Technology Services, Sven Kolstrup, om baggrunden for nedbruddet 9. april.
Switch går data-amok
Som flere kilder allerede har fortalt Computerworld, så skyldtes nedbruddet en fejl i en switch, der begyndte at oversvømme netværket med datatrafik.
Trafikken fra switchen fik core-routere til at være 100 procent belastede, hvilket betød, at de ikke videresendte data.
Selvom IBM's teknikere skiftede over fra en overbelastet core-router til en backup-router, blev problemet ikke løst.
Dataoversvømmelsen fra switchen flyttede blot over til backup-routeren, der hurtigt blev 100 procent belastet og dermed heller ikke var i stand til at videresende trafik.
Systemer startes et ad gangen
Da IBM's teknikere fik isoleret den fejlbehæftede switch fra netværket, begyndte selskabets teknikere at genstarte kundesystemerne igen. Det blev gjort på kontrolleret vis, et ad gangen.
Ifølge IBM opstår der flere tusinde såkaldte alerts hver måned i IBM's danske datacentre.
Det er informationer om, at noget på den ene eller anden måde afviger fra den forventede opførsel af hardware og software i datacentrene.
Normalt håndteres alerts af overvågningssystemer automatisk eller af driftspersonale, inden de får betydning for de kørende systemer.
Det skete også ved 9. april-nedbruddet, som Sven Kolstrup betegner som det største nedbrud nogensinde hos IBM Danmark, men her var situationen helt speciel.
Konfigurationsændring udløste softwarefejlen
I et brev til blandt andet Københavns Kommune beskriver IBM i flere detaljer, hvad der forårsagede nedbruddet.
Her hedder det blandt andet:
"Den kritiske situation opstod efter en kundekonfiguration af en 2nd RSPAN session (Remote SPAN) på tværs af switche for at tillade sporing af nogle data for kunden. Dette forårsagede en uventet reaktion fra
switchen."
og senere:
"Da vi efterfølgende fik elimineret den definition, som reelt udløste problemet i den isolerede switch, blev driften helt normaliseret for de resterende kunder."
IBM bekræfter, at konfigurationsændringen førte softwaren ud i en tilstand, hvor der var en programmeringsfejl.
Det var først nogle dage efter 9. april, at årsagen til fejlen i switchen blev identificeret efter nøje granskning i IBM's laboratorier .