Højtlæsning for computere

Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den Computerworld d. 25. april 2002.


På Island arbejder man på et projekt, der skal hjælpe computerne til at forstå, hvad der egentlig står i øens stolthed: de islandske sagaer.

De islandske sagaer bliver stadig fortalt af ældre generationer til de yngre, når vinterkulden bider i fårenes pels i de lange, mørke vinternætter. Gemt i de gamle fortællinger ligger en uvurderlig kulturskat, fordi de gamle, skrøbelige, håndskrevne dokumenter fra middelalderen er historikernes bedste skriftlige kilder til at forstå den nordiske kultur for mere end 1.000 år siden i vikingetiden.
Det er ikke sådan lige til at læse højt for en computer. Man kan godt, men den sætter ikke pris på det, for den forstår ikke meningen med de ord, man fodrer den med. Det er en skam, for computere er gode til at finde sammenhænge i tekster, som mennesker ikke kan få øje på. Men den er nødt til at vide, hvad den skal lede efter.
Derfor er der nogle, blandt andet World Wide Webs fader Tim Berners-Lee, der har tænkt tanken om et semantisk web, hvor man ikke bare gemmer tekst, så det kan læses og forstås af mennesker, men hvor man også lagrer information om, hvad teksten betyder.
HTML er til mennesker
Sådan et projekt med at skabe et semantisk web arbejder man også på i København og i Reykjavik, hvor universiteterne i samarbejde med den islandske IT-virksomhed Raqoon har udviklet et system, der kan hjælpe sagaforskerne med at dele deres viden med både hinanden og computeren.
Projektet hører under Nordunet2-programmet, der finansieres af Nordisk Ministerråd.
I praksis handler det semantiske web om at lagre koder i dokumenter og billeder, som computeren kan fortolke, ligesom mennesker kan fortolke resultatet af HTML-koder, når de har været en tur gennem web-browseren.
- HTML er et sprog, der er godt til tekst, der skal læses og forstås af mennesker. Men hvis læseren er en computer, så duer det ikke, siger Gardar Gudgeirsson direktør i Raqoon og leder af projektet.
Data mining, hvor computeren knuser store mængder tekst og information om teksten og kan finde nye og usete sammenhænge er et af de vigtigste perspektiver i projektet.
- Forskerne kan gennemsøge teksterne på en ny og mere intelligent og struktureret måde end før, siger Gardar Gudgeirsson.
Militærteknologi
De op til 900 år gamle skrifter får i computeren påhæftet teknologi fra dette årtusindskifte, da alle såkaldte metadata, altså data om teksten, bliver gemt i XML. Men også militærteknologi har fundet fredeligere anvendelse. Til projektet skulle man vælge et standard ordforråd, som skulle bruges til at beskrive betydningen og indholdet af de gamle fortællinger. Valget faldt på en standard, der oprindeligt er udviklet af DARPA (Defense Advanced Research Projects Agency) for det amerikanske forsvar.
Som alle håndskrevne værker, så er sagaerne ikke sat med Times New Roman. De fremhævede bogstaver og små illustrationer er også en del af teksten, og derfor har en del af projektet koncentreret sig om at lagre information om de grafiske elementer. Den information kommer ikke kun computeren til gode, men gør det også lettere for forskerne, der med vektorgrafik kan fremhæve forskellige dele af en illustration, og på den måde kan de også lettere fortolke de digitale sagaer.

Billedtekst:
Eksempel på islandske håndskrifter: http://am.hi.is/skrift/test/valmynd.pl




Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
Jobindex Media A/S
Salg af telemarketing og research for it-branchen, it-kurser og konferencer

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
Bliv klar til AI Act: Det vil påvirke både din udvikling, drift og organisation

Fordelene ved at anvende kunstig intelligens bliver stadig mere udtalte, og både som virksomhed og myndighed er det i stigende grad uholdbart ikke at udforske mulighederne. Men der er også risici forbundet på den nye teknologi, og på dette formiddagsseminar ser vi på, hvordan verdens første regulatoriske kompleks – EUs kommende AI Act – adresserer behovet for en etisk, ansvarlig og kontrolleret anvendelse af AI.

20. august 2024 | Læs mere


Det Digitale Produktpas

Kom med og hør om, hvordan du kommer i gang med at sikre din virksomhed er klar til Det Digitale Produktpas. Vi sætter fokus på, hvordan du bliver klædt på til at få styr og struktur på dine data, samt hvilke krav du skal sætte til dine leverandører og andre i din værdikæde, for at sikre den nødvendige information er tilgængelig.

21. august 2024 | Læs mere


Cyber Security Summit 2024

På Cyber Security Summit får du indsigt i det aktuelle trusselslandskab, overblikket over de nyeste værktøjer og trends indenfor sikkerhedsløsninger, indsigt i de relevante rammeværktøjer og krav samt de bedste løsninger og værktøjer til at sikre effektiv drift og høj compliance.

27. august 2024 | Læs mere