Søg efter indhold i stedet for ord

Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den CTO d. 3. februar 2006.


Sprogteknologier kan fjerne afhængigheden af sproget og koncentrere informationssøgning om indholdet.
Teknologier fra sprogforskningen kan gøre fremtidens søgning i data mere effektiv: De kan befri os fra bindingen til bestemte formuleringer og i stedet tillade søgning efter begreber. En af teknologierne er de såkaldte ontologier.
Ordet ontologi betyder "læren om det værende", og ideen går helt tilbage til Aristoteles. I vore dage bruges ordet om en struktureret beskrivelse af et videnområde. Det kunne for eksempel være medicin, gartneri eller rumfart.
- Når vi har kortlagt et videnområde via en ontologi, har vi et struktureret billede af området. Derefter kan vi indeksere en række dokumenter ud fra ontologien. Når vi søger efter information i de indekserede dokumenter, vil vi nu søge ud fra begreber og ikke efter de konkrete sproglige formuleringer i teksten. Så en søgning efter begrebet sygdom kan som resultat give et dokument, hvori der står "diabetes", men ikke "sygdom", forklarer professor Per Anker Jensen fra Institut for Datalingvistik ved Handelshøjskolen i København.
Han deltager i det danske forskningsprojekt Ontoquery, der har forsket i ontologier til brug i søgninger siden 1998. Finansieringen af projektet holdt op ved årsskiftet, men partnerne er så glade for samarbejdet, at de fortsætter forskningen på egen hånd. Det drejer sig foruden Handelshøjskolen om Informatik og Matematisk Modellering ved DTU, Laboratoriet for Intelligente Systemer ved RUC og Center for Sprogteknologi ved Københavns Universitet.
Projektet har udviklet et formelt sprog, Ontolog, der kan bruges til at beskrive indholdet i dokumenter, forespørgsler og ontologier. Der er også udviklet en prototype på et søgesystem, der anvender Ontolog. Man har her opbygget en ontologi over ernæring og sundhed. Den er brugt til at indeksere en række artikler om emnet fra Den Store Danske Encyklopædi. Når man indtaster en søgning, bliver den analyseret og oversat til et Ontolog-udtryk, som så bliver sammenlignet med indgangene i indekset. Ud fra indekset beregner systemet den indholdsmæssige afstand til indholdet i forespørgslen. Det rangordner de fundne dokumenter efter, hvor langt de ligger fra indholdet i forespørgslen.

En ontologi vil som regel altid indeholde relationer af typen "er en": Kræft er en sygdom, "livstruende" er en egenskab, der kendetegner nogle sygdomme. I Ontoquerys prototype på et søgesystem er der således en relation af typen "er kendetegnet ved". Så kan man udtrykke at "kræft er en sygdom kendetegnet ved at være livstruende".
- Vi har fundet frem til 15 relationstyper. De andre er for eksempel en relation om, hvornår noget finder sted, eller hvor det sker. Der er også en "forårsaget af"-relation. Men dem har vi endnu ikke lagt ind i prototypen, siger Per Anker Jensen.
Jo flere relationer, en ontologi kan indeholde, desto mere præcist et billede kan den give af det område, den beskriver.

En fordel ved at holde ontologien adskilt fra de dokumenter, man vil søge i, er, at det letter arbejdet med at udvikle ontologien. Når den virkelighed, som ontologien beskriver, ændrer sig, kan man således ændre i ontologien. Herefter kan man indeksere dokumenterne igen, og søgesystemet vil nu kende den opdaterede ontologi.
Per Anker Jensen betegner sprog- og vidensteknologi som et område, der boomer internationalt. Men der er en stor udfordring i brugen af ontologier: De skal udarbejdes.
- Det kræver en kombination af sprogfolk og fagfolk med ekspertise inden for det felt, ontologien skal dække. Jeg tror, at det først vil slå igennem inden for de områder, der i forvejen er bedst dokumenteret og beskrevet. Det er for eksempel ved at slå igennem på sundhedsområdet, siger han.
Han kan også forestille sig teknologien brugt til at indeksere al den viden, en virksomhed ligger inde med - hvad enten det er i form af dokumenter, e-mails eller andre datatyper.




Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
Ed A/S
Salg af hard- og software.

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
Bliv klar til AI Act: Det vil påvirke både din udvikling, drift og organisation

Fordelene ved at anvende kunstig intelligens bliver stadig mere udtalte, og både som virksomhed og myndighed er det i stigende grad uholdbart ikke at udforske mulighederne. Men der er også risici forbundet på den nye teknologi, og på dette formiddagsseminar ser vi på, hvordan verdens første regulatoriske kompleks – EUs kommende AI Act – adresserer behovet for en etisk, ansvarlig og kontrolleret anvendelse af AI.

20. august 2024 | Læs mere


Det Digitale Produktpas

Kom med og hør om, hvordan du kommer i gang med at sikre din virksomhed er klar til Det Digitale Produktpas. Vi sætter fokus på, hvordan du bliver klædt på til at få styr og struktur på dine data, samt hvilke krav du skal sætte til dine leverandører og andre i din værdikæde, for at sikre den nødvendige information er tilgængelig.

21. august 2024 | Læs mere


Cyber Security Summit 2024

På Cyber Security Summit får du indsigt i det aktuelle trusselslandskab, overblikket over de nyeste værktøjer og trends indenfor sikkerhedsløsninger, indsigt i de relevante rammeværktøjer og krav samt de bedste løsninger og værktøjer til at sikre effektiv drift og høj compliance.

27. august 2024 | Læs mere