Selvheling skal gælde for hele teknologistakken

7. april 2006 kl. 00.00

Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den CTO d. 7. april 2006.

Leverandører taler om selvhelende systemer, men danske it-chefer mener, at leverandørerne skal kravle op i teknologistakken, hvis de selvhelende systemer skal give mening.

Danske it-chefer vurderer, at it-leverandørernes overvågningssystemer, fejldiagnosticeringsværktøjer og ja: Selvhelende systemer, har gjort fremskridt de seneste par år. Der er dog masser af plads til forbedringer.
CTO har talt med driftscheferne hos CSC, KMD, Carl Bro og FDC (forsikringens DataCenter) for at høre, hvordan deres virkelighed ser ud.
Det var IBM, der tilbage i 2001 introducerede ideen om de selvadministrerende og selvhelende systemer, da selskabet introducerede initiativet eLiza. Ideen med eLiza var at få selvkonfigurerende, selvoptimerende, selvhelende og selvbeskyttende systemer. I dag har konceptet skiftet navn til autonomic computing, men ideen er den samme: Systemerne skal kunne passe sig selv.
Fælles for it-cheferne er, at de mener, at nederste niveau af teknologistakken - netværk og serverne - til en vis grad er selvstyrende. Men før man kan tale om selvhelende systemer, bør hele teknologistakken tages med. Det er nemlig ofte i de øvre lag som middleware, databaser og applikationerne, at fejlene opstår.
- Det er de meget basale ting, der er selvhelende. Man kan sige, at hardwaren er selvhelende, da man ved hjælp af virtualisering kan flytte et system fra et hardware-setup til et andet hardware-setup. Et stykke ad vejen kan det automatiseres, man kan nøjes med at validere, at tingene starter rigtigt. Man kan godt kalde det selvhelende, men det handler mere om at sikre en kontinuerlig drift, siger Jess Ibsen, nordisk direktør for infrastrukturdivisionen hos CSC.
For Jess Ibsen er det vigtigste dog ikke så meget at kunne håndtere hardware-nedbrud.
- Hardware er interessant nok, men der hvor systemer fejler, er på procesniveau: I operativsystemet, i middlewaren eller i selve applikationen. Vi skal kunne overvåge processerne i systemet på en anden måde, forklarer Jess Ibsen.
- Almindelige pc-brugere kender det: Hvis Windows går ned, er det typisk ikke på grund af en hardware-fejl, men på grund af en programfejl. Der er en proces, der er gået i stå. Det samme gælder for vores servere. Det er procesovervågningen, der er altafgørende. Med den traditionelle hardware-overvågning kan man ofte ikke se den slags fejl. Vi skal længere op i stakken. Nogle af værktøjerne kan genstarte visse typer af processer, men ofte skal du vide, hvordan applikationen opfører sig, for at du kan gøre det rigtigt, så der prøver vi at føje noget til, siger Jess Ibsen.

CSC har tilføjet et egenudviklet system, kaldet Hobbit. I CSC's meget heterogene driftsmiljø med Windows, Unix, Linux, Tandem og mainframes anvendes forskellige systemadministrationsværktøjer som IBM Tivoli, HP OpenView og CA's Unicenter til at overvåge systemerne. Hobbit bygger oven på disse systemer for at give de driftansvarlige bedre indblik i, hvordan kundernes systemer opfører sig.
- Hobbit anvendes specielt til webbaserede systemer. Det giver et andet overblik over netværk, servere og komponenter. Systemet indsamler data fra leverandørernes systemer og præsenterer dem i en sammenhæng, der gør fejlfinding nemmere. Hvor leverandørernes systemer kører horisontalt på teknologistakken, har Hobbit et mere vertikalt syn på teknologistakken. Det giver større gennemskuelighed, hvis man skal finde ud af, hvor et problem er opstået, siger Jess Ibsen.

Hos et andet stort driftscenter, KMD, har man også selv udviklet et system oven på leverandørernes systemadministrationssystemer.
- Vi har udviklet et system, BAM eller Business Availability Model, der henter information fra overvågningssystemerne fra CA, IBM og Microsoft, fortæller Per Smith, underdirektør for teknik og drift i KMD.
Hos KMD har man også et heterogent driftsmiljø bestående af mainframe, Unix og Windows.
- Det gælder om at skabe et business view på en kundes kritiske systemer. Vi har lavet en lille overbygning på den systemmanagement-portefølje vi har, så helbredstilstanden for kundernes systemer illustreres af en lille smiley, der kan være rød, gul eller grøn. Og vi har robotter, der eksempelvis måler svartider, siger Per Smith.
I distribuerede systemer kan det være svært at finde årsagen til lange svartider. De kan skyldes problemer i netværket, i databasen, i en applikationsserver, i et styresystem eller i selve applikationen. It-cheferne er mere interesserede i den slags information fra leverandørernes overvågningssystemer end selvhelende systemer. Eller sagt på en anden måde: Man skal vide, hvad der er galt, og hvor problemet er opstået, inden man kan rette op på det.

Hos FDC, der håndterer it-systemer for en række forsikringsselskaber, oplever produktionschef Carsten Spanggaard den problemstilling.
- Jeg mangler en god rapportering over de forskellige services eller systemer, som vi driver for vores kunder. Det er information om, hvilke processer der er involveret, hvilken processorkraft og storage, der er allokeret samt andre informationer relateret til det enkelte system. I dag skal jeg ud og pille de oplysninger ud af de forskellige delelementer og så selv sammensætte informationen, siger Carsten Spanggaard.
FDC håndterer omkring 150 forskellige systemer, hvoraf nogle er Windows-baserede og andre kører på mainframe. Til overvågning af systemdriften anvendes CA's Unicenter. Ligesom de andre it-chefer kan Carsten Spanggaard godt ønske sig mere information om selve applikationerne.
- Informationen skal være rettet mod brugernes oplevelse af, hvordan systemerne kører. Det kræver målepunkter på applikationsniveau, siger Carsten Spanggaard, som mener, at målepunkter på applikationsniveau er en forudsætning for at kunne tale om egentlige selvhelende systemer.

Et gennemgående træk ved it-chefernes syn på administrationsværktøjerne er, at leverandørerne overser kompleksiteten i driftsmiljøerne.
- Det kan godt være, at man i laboratorier har selvhelende systemer, men i kompleks drift er det svært, mener Carsten Spanggard.
Den samme melding kommer fra Morten Bro, teknisk chef for it hos ingeniørfirmaet Carl Bro. I modsætning til de tre andre it-chefer er Morten Bro velsignet med et homogent driftsmiljø. Men får man bedre muligheder for en automatiseret, måske selvhelende it-drift i et rendyrket Windows-miljø med omkring 80 servere, der kører Windows 2000 og Server 2003?
- Vi ser ikke, at der reelt er selvhelende systemer. Der er dog små forbedringer, der arbejder i den rigtige retning, siger Morten Bro.
Som eksempel nævner Morten Bro, at Microsoft Operation Manager 2005 kan oprette mere plads til SQL Server-databasen, hvis den mangler plads. Et andet eksempel er Exchange Server, der automatisk kan defragmentere sin email-database. Men Morten Bro mener, at leverandørerne glemmer driftskompleksiteten.
- Mange af de automatiske reparationer tager ikke hensyn til performance, daglig drift og det forhold, at de indgår i en større sammenhæng. Der er nogle operationer, hvor det er vigtigt at tage backup inden de udføres. Andre skal måske ikke udføres, hvis systemet eksempelvis skal bruges til en e-mail-kampagne. Der vil en defragmentering af e-mail-databasen måske ikke være så hensigtsmæssig. Det kan selvfølgelig løses med scripts og regler, men det bliver hurtigt komplekst, siger Morten Bro.
En anden faktor, der spiller ind, er den stigende integration mellem de forskellige produkter.
- Engang var Exchange Server blot e-mail og kalender. I dag taler den sammen med Sharepoint Portal Server, og den kan anvendes til push af e-mail. Flere systemer kommer til at hænge sammen, så der kan være komplekse sammenhænge, hvor effekten af automatiske procedurer i de nye sammenhænge ikke kendes. I de tilfælde vil vi selv være herre over, hvornår og hvad der kommer til at ske, siger Morten Bro.

Billedtekst:
- Jeg mangler en god rapportering over de forskellige services eller systemer, som vi driver for vores kunder, siger produktionschef Carsten Spanggard, FDC.

OriginalModTime: 06-04-2006 16:04:47