Søg efter indhold i stedet for ord

3. februar 2006 kl. 00.00

Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den CTO d. 3. februar 2006.

Sprogteknologier kan fjerne afhængigheden af sproget og koncentrere informationssøgning om indholdet.
Teknologier fra sprogforskningen kan gøre fremtidens søgning i data mere effektiv: De kan befri os fra bindingen til bestemte formuleringer og i stedet tillade søgning efter begreber. En af teknologierne er de såkaldte ontologier.
Ordet ontologi betyder "læren om det værende", og ideen går helt tilbage til Aristoteles. I vore dage bruges ordet om en struktureret beskrivelse af et videnområde. Det kunne for eksempel være medicin, gartneri eller rumfart.
- Når vi har kortlagt et videnområde via en ontologi, har vi et struktureret billede af området. Derefter kan vi indeksere en række dokumenter ud fra ontologien. Når vi søger efter information i de indekserede dokumenter, vil vi nu søge ud fra begreber og ikke efter de konkrete sproglige formuleringer i teksten. Så en søgning efter begrebet sygdom kan som resultat give et dokument, hvori der står "diabetes", men ikke "sygdom", forklarer professor Per Anker Jensen fra Institut for Datalingvistik ved Handelshøjskolen i København.
Han deltager i det danske forskningsprojekt Ontoquery, der har forsket i ontologier til brug i søgninger siden 1998. Finansieringen af projektet holdt op ved årsskiftet, men partnerne er så glade for samarbejdet, at de fortsætter forskningen på egen hånd. Det drejer sig foruden Handelshøjskolen om Informatik og Matematisk Modellering ved DTU, Laboratoriet for Intelligente Systemer ved RUC og Center for Sprogteknologi ved Københavns Universitet.
Projektet har udviklet et formelt sprog, Ontolog, der kan bruges til at beskrive indholdet i dokumenter, forespørgsler og ontologier. Der er også udviklet en prototype på et søgesystem, der anvender Ontolog. Man har her opbygget en ontologi over ernæring og sundhed. Den er brugt til at indeksere en række artikler om emnet fra Den Store Danske Encyklopædi. Når man indtaster en søgning, bliver den analyseret og oversat til et Ontolog-udtryk, som så bliver sammenlignet med indgangene i indekset. Ud fra indekset beregner systemet den indholdsmæssige afstand til indholdet i forespørgslen. Det rangordner de fundne dokumenter efter, hvor langt de ligger fra indholdet i forespørgslen.

En ontologi vil som regel altid indeholde relationer af typen "er en": Kræft er en sygdom, "livstruende" er en egenskab, der kendetegner nogle sygdomme. I Ontoquerys prototype på et søgesystem er der således en relation af typen "er kendetegnet ved". Så kan man udtrykke at "kræft er en sygdom kendetegnet ved at være livstruende".
- Vi har fundet frem til 15 relationstyper. De andre er for eksempel en relation om, hvornår noget finder sted, eller hvor det sker. Der er også en "forårsaget af"-relation. Men dem har vi endnu ikke lagt ind i prototypen, siger Per Anker Jensen.
Jo flere relationer, en ontologi kan indeholde, desto mere præcist et billede kan den give af det område, den beskriver.

En fordel ved at holde ontologien adskilt fra de dokumenter, man vil søge i, er, at det letter arbejdet med at udvikle ontologien. Når den virkelighed, som ontologien beskriver, ændrer sig, kan man således ændre i ontologien. Herefter kan man indeksere dokumenterne igen, og søgesystemet vil nu kende den opdaterede ontologi.
Per Anker Jensen betegner sprog- og vidensteknologi som et område, der boomer internationalt. Men der er en stor udfordring i brugen af ontologier: De skal udarbejdes.
- Det kræver en kombination af sprogfolk og fagfolk med ekspertise inden for det felt, ontologien skal dække. Jeg tror, at det først vil slå igennem inden for de områder, der i forvejen er bedst dokumenteret og beskrevet. Det er for eksempel ved at slå igennem på sundhedsområdet, siger han.
Han kan også forestille sig teknologien brugt til at indeksere al den viden, en virksomhed ligger inde med - hvad enten det er i form af dokumenter, e-mails eller andre datatyper.