Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den Computerworld d. 13. januar 2006.
Mandagens nedbrud hos PBS skyldtes et uheldigt sammenfald mellem en gammel kodeændring og implementering af et nyt adgangskontrolsystem.
Da morgentrætte bilister mandag morgen forgæves forsøgte at tanke på ubemandede tankstationer, kunne de ikke bruge en imponerende statistik for oppetid hos PBS til noget. Men faktum er, at dankortet fungerer i 99,999 procent af den tid, hvor det skal kunne fungere.
Den direkte årsag til, at det gik galt i mandags, er, at PBS er i gang med en større omlægning af det sikkerhedssystem, der styrer, hvem der har adgang til hvilke systemer, og hvad de har ret til at gøre med data i de pågældende systemer.
Omlægningen til det nye adgangskontrolsystem forventes at være færdig medio 2006.
Sikkerhedssystemet, RACF, der er fra IBM, indebærer en meget simplere opsætning af rettigheder og begrænsninger, og ifølge teknisk direktør i PBS, Tom Lund kører projektet på skinner.
Spiren til problemerne i mandags blev lagt torsdag nat i sidste uge. Da skete en større dele af RACF-omlægningen, men en utilsigtet bivirkning viste sig først ved en rutinemæssig sikkerhedsopdatering, som lå mandag nat fra klokken tre til klokken fem. Miseren resulterede i, at dankortsystemet først kom i drift klokken 8.40.
PBS kører i et IBM-driftsmiljø med betegnelsen IMS (Information Management System), der først blev introduceret i 1968, men som siden er moderniseret løbende. IMS-betegnelsen dækker både styringen af transaktionshåndteringen og databasen.
- Det er målrettet højvolumen i banker, men vi er en af de meget få installationer, der fortsat bruger IMS. De fleste andre banker er gået over til DB2-databasen, men for os repræsenterer IMS-teknologien stadig en særdeles effektiv måde at håndterer transaktionerne på, forklarer Tom Lund.
Torsdagens indkøring af RACF-tilpasning havde været helt uproblematisk, hvis ikke lige det havde været for en kodeændring, som blev foretaget for et par år siden, oplyser Tom Lund.
Kodeændringen skete i det system, som pr. automatik sikrer, at opstår der systemproblemer i den primære mainframe, så overtages den sekundære mainframe arbejdet.
Automatikken skal blandt andet sikre, at den primære IMS slås fra, så den ikke fortsat "skriver" i IMS-loggen. Det skulle også ske ved den planlagte natlige opdatering i mandags, men på grund af den omtalte kodeændring fejlede automatikken.
- Da vi startede igen efter mandagens planlagte systemopdateringer stod vi derfor med to aktive IMS'er, der skrev i loggen. Der var dog lukket helt af for transaktioner i opdateringsperioden, så de udgjorde ingen problemer, men vi måtte sikre os mod efterfølgende IMS-problemer. De kunne blive langt alvorligere, end dem, vi stod i, siger Tom Lund.
Opgaven bestod altså dels i at få lukket den ene IMS ned, dels i at tjekke, at alle databaser var korrekte.
En slags havarikommission er nu nedsat for at kortlægge hændelsen helt ned i detaljer og for at give PBS mulighed for at vurdere, om alle processer fungerer optimalt. Sådan gør man altid, når der opstår fejl.
Ifølge PBS påvirker hændelsen i mandags hverken katastrofeberedskabet eller risikoanalyserne. PBS kalder mandagens nedbrud for "en banal fejl", og derfor er risikobilledet ikke ændret. Og Tom Lund fremhæver nu, ligesom i mandags, at man skal helt tilbage til påsken 1988 for at finde en tilsvarende hændelse.
Dorte Toft er freelancejournalist
Billedtekst:
Mandag morgen den 9. januar brød dankortsystemet ned - til stor ærgrelse for mange bilister, der måtte ty til kontanterne.
Foto: Jens Møller Nielsen