Web 3.0: Data i skyen på anabolske steroider

Interview: Sammenfletning af relevante data på tværs af websider er en god forretning og giver samtidig en bedre brugeroplevelse. Udfordringen er at beskytte privatlivets fred.

28. oktober 2010 kl. 12.12

Nicolai Devantier Journalist

Ivan Herman

I 1979 blev Ivan Herman uddannet som matematiker fra Eötvös Loránd-universitetet, der ligger i Ungarns hovedstad Budapest. Han startede sin erhvervskarriere som datalog på Ungarian Research Institute.

I 1986 forlod han Ungarn til fordel for et job på Centre for Mathematics and Computer Sciences i Amsterdam, hvor han stadig bor.

Efter en afsluttet ph.d i datalogi i 1990 blev Ivan Herman tilknyttet World Wide Web Consortium (W3C), der er den organisation, som definerer de standarder, der anvendes på nettet.

I 2006 blev han udpeget til chef for organisationens semantisk web-aktiviteter. Herudover har han en række tillidshverv og er en flittig foredragsholder om semantik.

Det semantisk web

Det semantiske web eller web 3.0 er et projekt under W3C, som arbejder for udviklingen af et globalt netværk til udveksling af information gennem tildeling af mening til indholdet at web-indhold.

Begrebet dækker over et stade i web-udviklingen, hvor software kan gemmes, udveksles og ikke mindst bindes sammen via opmærkning, hvilket gør det muligt at knytte relaterede data sammen og give langt mere fyldestgørende og præcise informationssøgninger.

W3C udvider det semantiske web gennem udvikling af standarder, opmærkningssprog og web-værktøjer.

Interview: Nogle kalder det web 3.0, andre det semantiske web. Kært barn har mange navne, men der kan hurtigt opstå tvivl om, hvad barnet egentlig hedder.

En af drivkræfterne i udviklingen af den næste generation internet erkender således, at der har været problemer med formidlingen af, hvad begreberne egentlig dækker over.

"Vi har været for dårlige til at forklare, hvad det semantiske web er. Mange har opfattelsen af, at det er meget tungt og akademisk stof, men det er faktisk ikke særlig kompliceret at forstå," fortæller Ivan Herman, der siden 2006 har været standardorganisationen W3C's semantiske web-boss.

World Wide Web Consortium eller W3C, er den organisation, som definerer de standarder, der anvendes på nettet. Og W3C har været i gang med at indkapsle det semantiske web i flere år.

"Det handler om at bruge data fra mange kilder og binde dem sammen, så de har relevans," barberer han de luftige begreber ned til.

"Jo flere data, der kan integreres i web-løsninger, jo større er den gevinst, man kan få ud at nettet. Det gælder både for erhvervsliv og brugere," fortæller Ivan Herman til Computerworld fra sin hollandske base.

Web på steroider

Det semantiske web er således et netværk, hvor computerne ikke bare genkender ord, men også har en forståelse af ordenes betydning og derved kan drage naturlige paralleller til relaterede emner på tværs af nettet.

"Jeg kalder det mashup på steroider," griner Ivan Herman.

"Det skal naturligvis bygges sammen via en række standarder og teknologier, og det er lige præcis den opgave, vi skal tage vare på i W3C," siger han med en accent, der afslører hans opvækst i Østeuropa.

Ivan Herman er født og uddannet i Ungarn, hvor han i slutningen af 1970'erne debuterede som datalog. I 1986 forlod han landet til fordel for Holland, hvor han stadig bor.

Et krav til, at det semantiske web kan spindes, er, at der er tilgængelige informationer, som frit kan bruges.

Det kan være alt fra databaser, websider, smartphones og måske endda også det sagnomspundne internet-køleskab, der har huseret i medierne i årevis, som vartegnet på den digitale evolution i hjemmet.

Ivan Herman

Det semantisk web

Muskler i skyen

Et spædt forsøg på en semantisk løsning finder man hos den danske avis Information.

Her tildeler journalisterne web-artiklerne nøgleord, som efterfølgende binder artiklerne sammen med relevant information fra andre artikler og eksterne websider som eksempelvis Wikipedia.

Indholdet fra de eksterne sites bliver så vist sidestillet med hovedhistoriens indhold. Et tiltag som avisen lancerede i begyndelsen af 2010.

Cloud computing bliver i denne henseende et kraftfuldt værktøj. I takt med, at data lægges ud i skyen, kan informationerne på enkel vis bruges som indhold på tværs af websider, forklarer Ivan Herman.

Oplagte web 3.0-sider

Informationer fra eksempelvis en avis er oplagte til opbevaring i en elastisk sky, fordi det er offentlige tekster, billeder eller video, som således ikke skal beskyttes af voldsomme sikkerhedsforanstaltninger.

"Fra et semantisk udgangspunkt er cloud computing et særdeles brugbart værktøj, og semantiske løsninger var nogle af de første web-løsninger, der udnyttede, at man kan gemme og efterfølgende bruge store datamængder i en sky."

Men det er væsentligt, at man holder øje med sikkerheden, ikke mindst i forbindelse med privatlivets fred, da informationerne kan knyttes sammen på kryds og tværs via automatiserede arbejdsgange.

Sikkerhed mangler

Det er stadig en akilleshæl, som man ikke har en løsning på endnu, erkender Ivan Herman.

"Jo flere informationer, der bliver tilgængelige, jo større bliver faren for en sammenblanding, som ikke er hensigtsmæssig. Samtidig er der en række lovmæssige krav, der skal overholdes, ikke mindst i forbindelse med privatlivets fred."

"Hvordan man skal håndtere den problematik, diskuterer vi i W3C. Det er stadig et åbent spørgsmål."

Løsningen skal i høj grad findes hos brugerne, virksomhederne eller web-tjenesterne selv, vurderer Ivan Herman.

"Det handler om at blokere for følsomme informationer, så de ikke blandes sammen med offentlige informationer. Det kan man løse ved at kategorisere sine databaser. Men der er en risiko for, at ting slipper ud og kommer ud af kontrol, og det har vi i øjeblikket ikke en løsning på," siger Ivan Herman.

Ivan Herman

Det semantisk web

Firmaer er glade

Erhvervslivet har forholdt sig tøvende til det semantiske web, og på udviklingssiden har man ikke set udviklingen blomstre, men der er ifølge W3C en stribe oplagte fordele for både brugere og erhvervsliv.

"Vi fornemmer langt større interesse for semantiske løsninger i dag end for bare to år siden - både i offentligt regi og i erhvervslivet," siger han.

Dataintegration og -analyse er da også allerede et arbejdsområde i rigtig mange virksomheder, hvor de figurerer under forskellige arbejdstitler, eksempelvis business intelligence.
Jo enklere, det bliver at sammenholde forskellige datatyper, eksempelvis i form af enkle standarder og teknologier, jo bedre for firmaerne, vurderer Ivan Herman.

"Mange ønsker at integrere data på tværs af alle kildesystemer, rense data og binde systemer effektivt sammen ved hjælp af metadata og gerne i eksisterende it-systemer," siger han.

Nogle af de gevinster, der ligger inden for rækkevidde, er minimering af tidsforbrug, bedre muligheder for at analysere på nuancerede informationer og mindre behov for forskellige integrationsprodukter.

Ivan Herman fra W3C peger desuden på store og avancerede dataintegrationer, der anvendes i forskningsmiljøer, som potentielle vinderområder, der kan vinde på en enklere tilgang til dataindsamlingen.

Brugere er ligeglade

I et semantisk netværk får de almindelige brugere bedre tjenester. Og selv om de måske nok er glade for de nyheder, er de basalt set ligeglade med teknologier, siger Ivan Herman.

Brugerne vil mærke forskellen ved at blive præsenteret for en mere præcis mængde information fra flere kilder end de almindelig søgealgoritmer kan diske op med.

Der er kritiske privacy-røster, som løfter pegefingeren overfor den meget kontrollerede informationssammensætning, men W3C-manden mener ikke, at den styrede indsamling kan misbruges til ensretning eller censur på nettet. Tværtimod vil det give langt større frihed, mener W3C-manden.

"Det er umuligt at kontrollere indhold på nettet, men hvis web-siderne fortæller, hvor de henter informationerne fra, kan brugeren selv bedømme kvaliteten. Det er altid en overvejelse om en webside er troværdig, det kan semantikken ikke ændre på," siger Ivan Herman.

"Potentielt kan semantikken dog give bedre overblik over indhold og derved et bedre grundlag til at bedømme informationskvaliteten."