Med hjælp fra en italiensk unix-guru har TDC nu formentlig fundet årsagen til den ukendte fejl, som op til weekenden i perioder satte 30.000 erhvervsnumre ud af spil.
Det fortæller Erik Mønster, som er funktionsleder hos TDC.
Ifølge Erik Mønster opstod problemet med veteran-databasen efter en nødvendig udskiftning af nogle defekte båndstationer, der benyttes til back-up på den aldrende hardware.
I den forbindelse skiftede man også nogle diske, og det var denne procedure, der fik den samme fejl til at opstå på to redundante systemer i Århus og København.
Fejlen bevirkede, at HP-serverne med leverandørens eget Unix-system, HP-UX version 10.20 (Hewlett Packard UniX), periodisk gik op på fuld cpu-load, og bevirkede, at Sybase-databaserne til styring af en række intelligente telefonservices i perioder gik ned.
Den italienske guru
Ifølge Erik Mønster var det leverandørens forbindelse til en italiensk guru, der stadig kunne huske det mere end 10 år gamle unix-system, der bragte løsningen på problemet for dagen.
"Der ligger en dev-fil, der fortæller om hardwarekonfigurationen. Her skal to linier kode slettes i forbindelse med, at man skifter disk. Så opdaterer systemet selv konfigurationen," fortæller Erik Mønster.
Men fordi disse to linier i første omgang ikke blev slettet, troede maskinen, at de gamle diske og båndstationer stadig var til stede, og kunne samtidig ikke se de nye drev og båndstationer.
Der var med andre ord tale om en fejl i bindingerne mellem soft- og hardwaren, der oven i købet bevirkede, at man hverken kunne definere eller afdefinere de berørte drev, der var koblet på serveren.
"Det var sådan en gammel guru, der kunne huske, hvordan Unix fungerede for 10 år siden," forklarer Erik Mønster.
To linier - og vupti var problemet væk
Da medarbejderne først fik slettet de to linier, var problemet løst, og man kunne begynde at arbejde på at genetablere den første af de fejlramte databaser.
"Vi kører på en server, som vi mener, virker, og vi har rettet data op i løbet af lørdagen, og er i gang med at få den til at køre replikeret igen," siger Erik Mønster.
Pensionen venter aldrende system
Han forklarer, at den første server siden kode-sletningen har kørt så upåklageligt, at størstedelen af de påvirkede kunder siden lørdag ikke har mærket noget til problemerne i kulissen. Mandag har der ikke været nogen kundeforstyrrelser, fortæller han.
"Vi er meget fortrøstningsfulde i dag. Vi kommer nok op at køre fuld redundans i løbet af dagen," siger Erik Mønster.
Han peger på, at systemet dermed igen vil opnå det sikkerhedsniveau, som det tidligere har haft.
Han fortæller, at man nu vil udarbejde en Root Cause Analyse, (RCA) der skal kortlægge, hvad der præcis gik galt, hvordan man kan undgå fejlen og hvad man kan gøre bedre næste gang, hvis fejlen optræder igen.
"Det er en læringsproces, som er rigtig god," siger Erik Mønster.
Erik Mønster forklarede fredag, at TDC i forvejen overvejede at udskifte det aldrende system til noget nyere.
Men selv om weekendens begivenheder har opdateret stabens viden om systemet betragteligt, får veteran-systemet ikke lov til at leve længere end planlagt:
"Nej, det tror jeg ikke. Vi kan jo ikke være sikre på, at vi lige kan ramme den ene mand næste gang," siger Erik Mønster.