Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den Computerworld d. 30. maj 2003.
serverstabilitet: Fejltolerance baseret på hardware er ved at være umoderne. Det skyldes, at server-hardware i dag er klippestabilt. I stedet er applikationsklynger ved at komme i fokus.
At opstille klyngesystemer, der skal modvirke følgerne af server-nedbrud, er ved blive en dårlig investering. Det er nemlig under ti procent af alle servernedbrud, som skyldes hardwarefejl eller problemer i serverens styresystem, viser en undersøgelse fra Gartner Group. Undersøgelsen påviser, at over 40 procent af alle servernedbrud skyldes fejl i applikations-software.
Disse fejl kan være rene programmeringsfejl, problemer med at eksistere sammen med andre applikationer eller fejldimensionering i forhold til datamængden.
Uden katastrofeberedskab
Gartner Group påpeger, at applikationer sjældent er bygget til at håndtere større interne problemer og derfor let kan rive hele systemet med ned. Et problem, der svarer til, at en bil sagtens kan komme med en fornuftig alarm, hvis føreren har glemt at tage sikkerhedsselen på, men ikke hvis man hælder dieselolie i tanken på en benzinbil.
Andre 40 procent servernedbrud skyldes, ifølge Gartner Group, menneskelige fejl i forbindelse med drift af serveren. Det kan for eksempel være manglende håndtering af databaser, som "flyder over", eller dårlig håndtering af hardwarefejl. Gartner Group bemærker, at simpel ignorering af fejlsituationer er en hyppig årsag til systemstop for serversystemer.
Strømproblemer
Tilbage er årsagerne til 20 procent af alle server-nedbrud. Gartner Group angiver, at problemer med strøm udgør hovedparten af disse 20 procent. Det er kun omkring ti procent af alle serverstop, som skyldes deciderede fejl i serverens hardware eller dens styresystem. Denne andel er mindre i dag, idet Gartner Group-undersøgelsen er et par år gammel, men analyseinstituttet bekræfter, at tendenserne i undersøgelsen stadig gælder.
Boks:
Klynge med share all
Alle maskiner i klyngen deler alt. Brugere, diske og applikationer deles på tværs af alle maskiner. Klyngens styreprocessorer fordeler aktiviteter og brugere rundt til maskinerne i klyngen. Alle systemer kan se alle diske og dermed alle data. Denne type af klyngesystemer har den fordel, at klyngens totale kapacitet kan forøges simpelthen ved at sætte ekstra servere ind i klyngen. Ulempen ligger i kompleksiteten af klyngens nødvendige styreprocessor og prisen for den ekstra hardware. Styreprocessoren er typisk meget kompleks og kan være et fejlpunkt i klyngen. Til gengæld skal der ingen ændringer til i applikationerne for, at de kan udnytte klyngemulighederne fuldt ud.
HP Open VMS Clustering og IBM Parallel Sysplex er hardwaresystemer efter denne model. Styresystemet skal være specialdesignet til den type klynger, ligesom filsystemet skal kunne håndere adgang fra flere systemer samtidigt.
På applikationssiden er der for nyligt kommet systemer som Oracle Real Application Cluster, der giver mulighed for at samle en flok database-servere til en stor server. Oracles teknologi er en simuleret hardwareløsning, hvor en virtuel klyngestyreprocessor klarer ressourcetildelingen.
Klynge med share nothing
Et system i klyngen har dets egne applikationer og diske samt egne brugere. Falder det ene system dødt om, så overtages alle aktiviteter af den overlevende server. Det er simpelt rent teknisk at lave sådanne klyngesystemer, men alle applikationer skal være programmeret til klyngebrug, eller der skal være en mekanisme til at starte dem på den overlevende server.
Microsofts klyngeteknologi bygger på denne teknologi. Der eksisterer også flere andre software-klyngessystemer, der bygger på share none-strategien. Formålet med den type af klynger er udelukkende at sikre systemets fejltolerance..
På software-siden er der systemer som Veritas Cluster servere, der kan give fejltolerante applikationsservere. Veritas softwaren lytter efter, om applikationerne har det godt, og mister softwaren kontakt med en af applikationerne i klyngen, startes der passende aktiviteter for at få applikationen på benene igen.
Billedtekst:
Analyseinstituttet Gartner Group påpeger, at dagens hardware er så stabil, at man bør satse på applikationsklynger i stedet - eller stærkere reoler i dette tilfælde med en 1024 maskiners Linux-klynge