Sådan undgår du totalt kaos når nedbruddet rammer

ComputerViews: Det er sikkert, som amen i kirken, at du en dag vil blive ramt af et nedbrud. Se her, hvordan du kan undgå, at tingene går helt amok, når det sker.

10. oktober 2013 kl. 10.02

Dan Jensen Redaktionschef

ComputerViews: It-systemerne bliver hele tiden større og mere komplekse.

I sagens natur betyder det stigende risiko for, at ting kan gå galt. Samt at omfanget af de mulige konsekvenser vokser.

Der findes ikke mange it-chefer, der ikke har stået midt i et nedbrud og mærket irritationen stige over hardware memory failure in back-end server eller lignende.

Lad os tage et kig på nogle af de ting, som vi ved kan være med til at gøre pinen mindre, når først ulykken sker.

Planlæg og test - for uheldet vil ske

I enhver drift af ethvert system opstår der situationer, hvor tingene går galt:

Listen over ting, der kan (og vil) gå galt er ganske lang: Bugs, hackere, strøm, implementeringer, menneskelige fejl, opdateringer, servere brænder sammen, ledninger, slitage og mange flere ting.

Det vigtigste punkt er, at du forstår, præcist hvordan et nedbrud rammer din organisation. Og dernæst formulerer, hvad der så skal ske.

Ingen organisationer er ens, og derfor vil en katastrofe-plan altid være en unik størrelse, der er formuleret og tilpasset netop din organisation og netop dens opbygning og prioriteringer.

Få på forhånd styr på, hvor meget en akut-flytning af de mest vitale funktioner koster.

Hvor meget koster en backup-løsning? Kan cloud computing-tjenester som Amazon Web Services eller Windows Azure være til nogen nytte som akut-løsninger, hvis (når) uheldet sker?

Og hvem af medarbejderne skal egentlig sørge for hvad, når det sker?

Og når du er nået i mål med disse overvejelser: Test hele baduljen af. Lad det hele crashe stykke for stykke, så du får kørt brandalarmen og testet din plan.

Det kan endda være en god idé at indføre jævnlige prøve-nedbrud, hvor alle medarbejdere og alle nød-funktionerne bliver afprøvet.

Det her er bare en rigtig skidt ide

Adskil kommunikation og service-platform

Betragter vi et it-setup ud fra et business continuity-perspektiv, er det ikke en god idé at køre telefoner, email, instant messaging og andre typer kommunikations-løsninger på det datacenter, som du jo lige har investeret store summer i.

Det nye datacenter er ganske vist rasende hurtigt og strømlinet, og aldrig har kommunikations-løsningerne kørt så hurtigt og på et system med så stor kapacitet.

Men alligevel er det en skidt idé. Grunden er vel indlysende: Når systemet går ned, kan du ikke kommunikere.

Og det komplicerer arbejdet med at finde en løsning en del, ligesom du ikke kan få besked ud til kunder, samarbejdspartnere og andre vigtige stakeholdere i en fart.

De sidder bare og venter, mens de bliver vredere og vredere, fordi de ikke kan komme i kontakt med virksomheden. Det betyder, at du reelt kan risikere at miste dem som kunder eller partnere.

Løsningen ligger selvfølgelig lige for: Lad være med at køre dine kommunikations-løsninger på samme platform som dine service-løsninger.

Glem ikke at kommunikere

It-chefens naturlige reaktion på et nedbrud er at lægge alle tilgængelige ressourcer i opgaven med at få løst problemet hurtigst muligt.

Det er en ganske naturlig reaktion. Men dog den forkerte.

For der er mange interessenter i et nedbrud, som ikke forstår, hvad der foregår, og som har brug for at blive informeret. Ellers begynder de bare at ringe og forstyrre dig med de samme spørgsmål igen og igen, hvilket jo fjerner fokus fra den centrale opgave: At få løst nedbruddet og få bakset det ramte system på benene igen.

Interessenterne kan variere, alt efter hvilket systemer der er blevet ramt, men de kan tælle kunder, leverandører, medarbejdere, ejere, chefer og partnere.

Husk derfor på at få indarbejdet en kommunikationsplan i din katastrofeplan.

De to vigtigste ting at få afsted: 1) Noget er sket. 2) Vi arbejder på sagen.

Dernæst kan du følge op med løbende dessiner om løsningsarbejdets status.

Hurtig og effektiv kommunikation giver bedre plads til at få løst problemet. Og det bør have høj prioritet - kun overgået af selve løsningsarbejdet.

Hvornår har du sidst gjort det her?

Hvornår har du senest testet dine backup-systemer?

Du har sikkert allerede et backup-system i funktion, som jævnligt bliver opdateret, men hvornår har du senest for alvor haft systemet i drift?

Det er værd at tænke på, at backup-systemet kun for alvor har nogen værdi i situationer, hvor de rigtigt får tæsk - altså når hovedsystemet af en eller anden grund crasher, og backup-systemet skal indsættes.

Derfor er det vigtigt, at du ved, at de kan holde til presset. Og det kræver, at du jævnligt tester dem under forhold, der ligner de forhold, som et nedbrud vil give.

For det meste er backup-systemerne mindre end hoved-systemerne, der skal afvikle store loads hver eneste dag. Det er jo bare backup-systemer.

De mindre specifikationer gør det imidlertid bare endnu mere nødvendigt, at du ved, at backup-systemerne kan holde til presset, den dag hvor du virkelig har brug for dem.

Har du flere gode råd til at minimere konsekvenserne af et nedbrud? Del dem med os andre herunder.