Læs også:
[b]Teleselskabet 3's kunder: I er altså ramt af nedbrud[/b]
Mainframe skyld i stort it-nedbrud i danske banker
Overbelastet netværksudstyr fik tirsdag dr.dk til at gå helt i sort.
I tidsrummet mellem klokken 14:00 og 14:57 var det derfor ikke muligt at gå ind på Danmarks mest besøgte hjemmeside.
"Det er et stort problem for os, når dr.dk og alle subdomænerne er nede. I går var hele den portefølje af sider nede i én time, og det er vi selvfølgelig rigtig kede af," fortæller Kristian Waneck, der er chef for it-infrastruktur i Danmarks Radio.
Christian Waneck og et hold på seks mand fik derfor sved på panden. Men de fik løst problemet, der ifølge chefen ikke burde kunne opstå.
Dr.dk er landets mest besøgte hjemmeside målt på unikke brugerbesøg, viser tal fra FDIM, der registrer besøg omkring danske hjemmesider.
Sådan fejlede redundante løsning
Ifølge Danmarks Radio opstod problemet på grund af netværksudstyr.
"Der var en load balancer, der gik i vores netværksinfrastruktur. Det er et fysisk stykke netværksudstyr, som er placeret i vores serverkælder," siger Kristian Waneck.
I den perfekte verden burde problemet ikke kunne opstå, fordi løsningen er redundant. Andre netværksenheder burde derfor have overtaget trafikken.
Men den anden load balancer, der skulle overtage trafikken blev ramt af overbelastning, fordi den ikke kunne håndtere trafikmængden.
"Lige præcis i går kørte vi nogle tests med ny teknologi, vi er ved at implementere. Derved skulle den tilbageværende load balancer både håndtere trafik fra testen og den normale drift, og det kunne den ikke bære," fortæller Kristian Waneck.
Kristian Waneck ønsker dog ikke at fortælle, præcist hvilket stykke udstyr Danmarks Radio benytter sig af.
Hvilken type netværksudstyr drejer det sig om helt præcist?
"Det vil vi ikke udtale os om," siger Kristian Waneck.
Sikrede driften ved at omdirigere trafik
Teknikerne hos Danmarks Radio kunne ikke finde fejlen med det samme.
"Vores team på 5-6 mand kæmpede med at lokalisere fejlen og få problemet løst. Så vi var mange på opgaven," fortæller Kristian Waneck.
Da holdet fandt fejlen blev problemet løst ved at prioritere det normale drifts-trafik.
"Vi stoppede simpelthen trafikken i vores testsetup, og kunne på den måde styre driftstrafikken helt uden om.
Læs også:
[b]Teleselskabet 3's kunder: I er altså ramt af nedbrud[/b]