Integrerede data er penge værd

Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den CTO d. 3. februar 2006.


Ved at samle gratis data fra en lang række kilder, ordne dem og tilføje viden, gør Schultz Information oplysningerne så meget mere værd, at brugere er villige til at betale for dem.

Omkring 200 websteder får jævnligt besøg af en robot. Robotten henter informationer ud af webstedets dokumenter og afleverer dem i en XML-database (Extensible Markup Language) hos Schultz Information. Efter en både manuel og automatiseret bearbejdning indgår oplysningerne i informationstjenester, som blandt andre a-kasser, kommuner og advokater abonnerer på.
For Schultz Information er integration af data blevet et forretningsområde. Det er vokset frem som en naturlig fortsættelse af de opslagsværker om lovgivning, Schultz-koncernen er bygget på.
- Vi beskæftiger os med ustruktureret information, der ligger i dokumenter. Derfor er dokumentanalysen afgørende for, at vi får de rigtige informationer ud til brugerne, siger direktør Eskil Thygesen, Schultz Information.
Mange af kilderne til systemet kan bruges gratis på web, det gælder blandt andet lovdatabasen Retsinformation. Men Schultz Information tilføjer information i form af links, henvisninger til andre dokumenter og kommentarer. Disse tilføjelser sammen med selve integrationen af alle kilderne i ét system gør det muligt at tjene penge på noget, kunderne ellers kunne have hentet gratis.

Hjertet i dokumentsystemet er et XML-baseret system, hvor data gemmes i en Oracle-database. Databasen opbevarer både selve dokumenterne i flere versioner og metadata om dem. De dokumenter, der ligger i XML-databasen, danner grundlag for en række web-baserede tjenester og for trykte opslagsværker.
De 200 websteder udgør den største kilde af data. Derudover er der nogle dokumenter, som kun kan fås på papir, det gælder for eksempel domme. De indscannes og OCR-behandles (Optical Character Recognition), før de bliver lagt ind i XML-systemet. Endelig producerer Schultz Informations egne ansatte også tekster i systemet.
Informationerne fra websiderne hentes ind med robotprogrammer fra det danske softwarehus Kapow. Robotterne indstilles til at hente bestemte informationer på siderne og indlægge den sammen med metadata i XML-systemet. Herved konverteres data fra HTML, som websiderne er skrevet i.
- Det giver mange udfordringer, da websider jævnligt får ændret deres design. Vi har to medarbejdere, som er eksperter i at sætte robotterne op og tilrette dem. Der har været en lang indkøringsperiode, men nu lever Kapows system helt op til vores forventninger, siger divisionschef Thomas Hvalsø Hansen, der leder it-funktionen hos Schultz Information.
Erfaringen med indkøringsperioden går igen, når man spørger ham om Oracle-databasens understøttelse af XML.
- Vi har brugt Oracle til at lagre XML siden 2002, og vi var blandt de første i verden, der tog det i brug. Vi havde ventet, at implementeringen ville tage et par måneder, men den tog næsten et år. Det skyldes, at produktet var i første generation og ganske umodent. Nu er vi ved at gå over til Oracle 10g, hvor nogle af børnesygdommene er kureret, siger han.
Et problem skyldes, at Schultz Information gemmer alle versioner af et dokument. Så selvom de aktive dokumenter fylder tre gigabyte, er den samlede database oppe på flere hundrede gigabyte. Det har givet en tiltagende ustabilitet i de interne systemer. Den håber man at få bugt med ved overgangen til den nye databaseversion.
Trods indkøringsvanskelighederne er Schultz Information tilfredse med at bruge Oracle som XML-lager. En af fordelene er, at hver gang et XML-dokument gemmes, bliver det kontrolleret i forhold til det skema, der beskriver den pågældende dokumenttypes opbygning. På den måde kan man finde fejl i struktur og opmærkning, før dokumentet bliver lagt i produktion.

Databasen bruges til at lagre dokumenterne. Men dens søgefaciliteter anvender Schultz ikke. Her bruger man i stedet det norske system Fast.
- Vores redaktionelle medarbejdere opbygger taksonomier, som Fast kan bruge til at søge i. Vi opbygger også søgninger, der anvender både metadata og dokumentdata, så søgningerne bliver så præcise som muligt, siger Eskil Thygesen. En taksonomi er en inddeling af et fagområde i kategorier.
- Vi arbejder på at gøre det muligt kun at søge i bestemte dele af et dokument. Så kan man søge efter en tekst, der for eksempel skal stå i resumeet, men ikke i resten af teksten, siger Thomas Hvalsø Hansen.
Den største fordel ved at bruge XML er, at det giver en opdeling af indhold og den måde, indholdet præsenteres på.
Schultz Informations erfaring med XML går tilbage til forgængeren SGML (Standard Generalized Markup Language). Det blev i sin tid valgt, fordi firmaet ønskede at publicere både på papir og digitalt på disketter. I dag indlæses XML i DTP-programmet Framemaker, når indholdet skal ud som tryk på papir i stedet for websider.
- Vi har også mulighed for at tilbyde direkte adgang til vores XML-data, som kunderne så selv kan lægge ind i deres systemer. Men det har der ikke været større interesse for - til gengæld har flere kunder fået adgang til at lægge deres egne data ind i vores system, fortæller Eskil Thygesen.
Kunden kan gemme sine informationer i samme XML-database som Schultz-systemerne anvender. På den måde kan en a-kasse for eksempel indlægge information om, hvordan en bestemt bekendtgørelse skal fortolkes for dens medlemmer. Dataene er lagret så kun kunden selv har adgang til dem. De indgår ikke i de data, andre kunder kan se.
Eskil Thygesen regner med, at kompleksitet er årsagen til, at der er så lille interesse for at få adgang til de rå XML-data. I det hele taget mener han ikke, at metoden med at lagre indhold centralt i XML er egnet for alle:
- Det er en omkostningsfyldt proces. Vi har gavn af den, fordi vi indsamler fra mange kilder og publicerer i flere formater. Men for andre organisationer kan det være helt fint at gemme alt som Word- og Excel-filer i stedet for at indføje et ekstra lag software, siger han.
Thomas Hvalsø Hansen supplerer med, at XML kræver et ret højt kompetenceniveau it-mæssigt. Til gengæld har Schultz Information via it-værktøjer haft en produktivitetsfremgang i dokumentproduktionen på 20 procent årligt de sidste fem-seks år.

Billedtekst:
Udfordring - Den helt store udfordring ved integration af ustrukturerede data er dokumentanalysen: At forstå, hvad et dokument består af, siger direktør Eskil Thygesen fra Schultz Information. Foto: Torben Klint




IT-JOB
Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
Brother Nordic A/S
Import og engroshandel med kontormaskiner.

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
Bliv klar til AI Act: Det vil påvirke både din udvikling, drift og organisation

Fordelene ved at anvende kunstig intelligens bliver stadig mere udtalte, og både som virksomhed og myndighed er det i stigende grad uholdbart ikke at udforske mulighederne. Men der er også risici forbundet på den nye teknologi, og på dette formiddagsseminar ser vi på, hvordan verdens første regulatoriske kompleks – EUs kommende AI Act – adresserer behovet for en etisk, ansvarlig og kontrolleret anvendelse af AI.

20. august 2024 | Læs mere


Det Digitale Produktpas

Kom med og hør om, hvordan du kommer i gang med at sikre din virksomhed er klar til Det Digitale Produktpas. Vi sætter fokus på, hvordan du bliver klædt på til at få styr og struktur på dine data, samt hvilke krav du skal sætte til dine leverandører og andre i din værdikæde, for at sikre den nødvendige information er tilgængelig.

21. august 2024 | Læs mere


Cyber Security Summit 2024

På Cyber Security Summit får du indsigt i det aktuelle trusselslandskab, overblikket over de nyeste værktøjer og trends indenfor sikkerhedsløsninger, indsigt i de relevante rammeværktøjer og krav samt de bedste løsninger og værktøjer til at sikre effektiv drift og høj compliance.

27. august 2024 | Læs mere