TOPNYHED:Nu er leverandøren af Danmarks nye NemKonto til 384 millioner kroner fundet - KMD ryger ud

Artikel top billede

Nørd crawler politikernes hjemmesider

Er internettet det nye forsamlingshus, spørger studerende?

Hvordan bruger politikerne internettet under valgkampen i 2010?

Dét svar skal forskere for fremtiden kunne besvare, mener den 24-årige politilogistuderende Bertel Torp. Han har sat en server op som scanner politikernes websider, facebook-profiler og lignenede hver uge frem til valget, så man kan følge udviklingen uge for uge.

Hvorfor lagrer du politikernes hjemmesider?

"Fordi jeg er en nørd. Det, tror jeg, er det rigtige svar. Der er så mange, der snakker om, hvordan sociale medier bliver det nye i valgkampen. Men jeg synes ikke, at der er nogle eksempler. Det hele sker intensivt over de tre uger, hvor der er valg, og jeg syntes jeg ville dokumentere det op til," siger Bertel Torp.

Hans interesse er både professionel og personlig. Han har nogle år studeret samfundsvidenskab ved Aalborg Universitet og er på vej til Copenhagen Business School, hvor han vil færdiggøre sin uddannelse. Desuden er han frivillig kampagnemedarbejder for den radikale Sofie Carsten Nielsen.

Dataene overvejer han selv at bruge til en videnskabelig artikel til sit studie, men han vil også lade andre få del i dataene, hvis det er til forskning eller undervisning. De lægges dog ikke ud til frit skue på nettet, eftersom han er usikker på ophavsret og lignende. Bertel Torp har dog allerede stillet sit datasæt over eksempelvis Facebook-sider frit til rådighed på sin hjemmeside i en kommasepareret fil.

 

Bruger Heritrix til crawle

Bertel Torp, der efter en uges indsamling har skrabet politikernes sider for 3,1 GB data, har undervejs måtte ændre i sin crawler-opsætning.

"Jeg startede med at lave mit eget script, og det gik fuldstændig galt. I løbet af en halv time, begyndte den at downloade hele Facebook. Den fulgte links på siderne og begyndte så at hente, og jeg er ikke sikker på, at det er i tråd med Facebooks politik," forklarer Bertel Torp.

Han overvejede derefter blot at bruge et script, der tager screenshots af siderne, men valgte til sidst, hvad han så som den bedste og letteste løsning: Open source-crawleren Heritrix, som det kendte net-arkiv web.archieve.org bruger. Programmet kopierer kildekoden på siderne, men ulempen er, at mediefiler, eksempelvis indlejrede Youtube-videoer, senere kan være svære at genskabe. Programmet fungerer desuden langsomt ved Flash-sider.

Bertel Torp overvejer som det første at bruge dataene til en ord-sky (tagcloud), så man kan se, hvad de forskellige partiers kandidater bruger mange ord på. Derudover er han en anelse usikker på, hvad han skal bruge dataene til.

"Data er ikke noget værd, hvis man ikke ved, hvordan man skal behandle dem, og det er lidt dér, jeg strander," siger Bertel Torp.

Dog mener han, at der er masser af spørgsmål at tage fat på.

 

Det nye forsamlingshus?

"Sociale medier er det nye vælgermøde. Det er spået, at det skal være det nye forsamlingshus. Det er dér, man møder vælgerne og har en dialog med dem, og det er dét, jeg gerne vil fange. Jeg synes dog ikke, politikerne er specielt gode til at udnytte mulighederne. Jeg har nogle få eksempler på, hvor der er dialog. Nogle bruger Facebook til at snakke med folk, men ellers synes jeg ikke, at den store brede gruppe masse af politikere bruger det. De bruger det som valgplakater og kronikker - altså til at skubbe information ud," mener Bertel Torp, der altså endnu ikke ser de sociale medier som det nye forsamlingshus.

Serveren er sat op til at respektere robots.txt, så man kan blokere crawleren ved at indsætte følgende kode:

User-agent: eValg11
Disallow: /

Bertel Torp oplyser, at han allerede er stødt på syv folketingskandidater, der har "no-follow" på deres hjemmesider, så Google ikke indekserer siderne. Disse hjemmesider crawler Bertel Torp ligeledes ikke.




Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
Højer og Lauritzen ApS
Distributør af pc- og printertilbehør.

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
Strategisk It-sikkerhedsdag 2025, Aarhus: Viden om trusler og tendenser – Beskyt din virksomhed

Gå ikke glip af årets vigtigste begivenhed for it-sikkerhedsprofessionelle! Mød Danmarks førende eksperter, deltag i inspirerende diskussioner og få praktisk erfaring med de nyeste teknologier. Bliv klogere på de seneste trusler og lær, hvordan du bedst beskytter din virksomhed mod cyberangreb. Tilmeld dig nu og vær på forkant med fremtidens cybersikkerhedsudfordringer.

21. januar 2025 | Læs mere


Strategisk It-sikkerhedsdag 2025, København: Viden om trusler og tendenser – Beskyt din virksomhed

Gå ikke glip af årets vigtigste begivenhed for it-sikkerhedsprofessionelle! Mød Danmarks førende eksperter, deltag i inspirerende diskussioner og få praktisk erfaring med de nyeste teknologier. Bliv klogere på de seneste trusler og lær, hvordan du bedst beskytter din virksomhed mod cyberangreb. Tilmeld dig nu og vær på forkant med fremtidens cybersikkerhedsudfordringer.

23. januar 2025 | Læs mere


Computerworld Cyber Briefing

Én gang om måneden leverer Computerworld Event et 30 minutters Cyber Briefing, hvor du får overblik over de mest aktuelle angreb, største trusler og tendenser samt giver dig gode råd, der kan implementeres direkte i din it-sikkerhedsafdeling.

03. februar 2025 | Læs mere