Sprogteknologi gør søgninger klogere

Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den Computerworld d. 3. februar 2006.


Ved at udnytte viden fra sprogforskningen forsøger forskere at gøre informationssøgning mere effektiv.

Når et søgesystem ved noget om det område, en bruger søger information om, kan det give mere brugbare søgeresultater.
Det var et gennemgående træk ved de præsentationer, som en gruppe forskere og erhvervsfolk gav hinanden ved et møde i Danmarks Erhvervsforskningsakademi i januar. Mødets overskrift var "Når
Google bliver for meget - og samtidig ikke er nok."
Google blev brugt som eksempel på den traditionelle fritekstsøgning, hvor et søgesystem indekserer alle ord, der optræder i et dokument. Det gør det nemt at finde et dokument, hvis man ved, hvilke ord der står i det. Men en søgning på ordet "elev" vil ikke finde et dokument, hvori der ikke står "elev", men i stedet "studerende".
Direktør Bo Vincents fra firmaet Ankiro demonstrerede en løsning, hans firma har udviklet. Det er LO-projektet Fagjob, der er en jobsøgningstjeneste.
Han søgte først på ordet "pædagog", det gav 432 job. Derefter udvidede han søgningen til "pædagog jylland", hvorved søgeresultatet blev indskrænket til 159. Men da han tilføjede ordet "sjælland", kom der pludselig flere resultater. Søgesystemet havde altså underforstået et "og" mellem pædagog og Jylland, mens det indsatte et "eller" mellem Jylland og Sjælland.
- Det kan lade sig gøre, fordi Fagjob har en viden om geografi. Således finder det en annonce, hvis der står "Skive" i den, men ikke "Jylland". Det skyldes, at systemet ved, at Skive er en by i Jylland. Og når systemet ved, at Jylland og Sjælland er geografiske udtryk, regner det med, at brugeren vil se på stillinger i enten Jylland eller Sjælland, sagde Bo Vincents.
Som et yderligere eksempel på den viden, der er lagt ind i Fagjob, nævnte han, at man kunne finde en stilling ved at søge på "deltid". Det ord optrådte ellers ikke i stillingsannoncen, men der stod, at stillingen var på 28 timer.

Fagjob er et eksempel på brug af det, nogle sprogforskere kalder en ontologi. En ontologi er en struktureret beskrivelse af et begrebsområde. En geografisk ontologi kan for eksempel fortælle, at Skive er en by i Jylland, der en landsdel i Danmark, der er et land i Europa.
Når brugeren indtaster søgeord i Fagjob, bliver de slået op i søgesystemets ontologi. Systemet forsøger at afgøre, om der er tale om stillingsbetegnelser, geografiske betegnelser eller andre kategorier. På den måde kan systemet sørge for, at der altid underforstås et "eller" mellem stednavne, mens der underforstås "og" mellem stillingsbetegnelsen og stednavnene.
Hvis et søgesystem skal anvende en ontologi, skal alle de dokumenter, der kan søges i, indekseres ud fra ontologien. Søgeteksten analyseres på samme måde ud fra ontologien, hvorefter det kan lade sig gøre at finde dokumenter, der opfylder søgekriterierne.

Et dansk forskningsprojekt, Ontoquery, har udviklet et særligt sprog ved navn Ontolog. Det kan bruges til at beskrive indholdet i dokumenter, forespørgsler og ontologier. På mødet viste forskerne en prototype, hvor de havde benyttet en ontologi om ernæring til at klassificere en række tekster om samme emne.
- Vi har fået nogle gode teoretiske resultater, blandt andet gennem udviklingen af Ontolog. Prototypen viser, at det kan bruges i praksis, siger professor Per Anker Jensen fra Handelshøjskolen i København.
Som eksempel nævner han en søgning efter "behandlingen af sygdomme". Søgeresultaterne er rangordnet efter, hvor godt dokumenterne opfylder søgningens krav. Således får et dokument karakteren 95 procent, da det indeholder teksten "behandling af diabetes mellitus (sukkersyge)". Et dokument, hvori der står "behandling af vitaminmangel", får derimod kun 50 procent. Det skyldes, at ontologien ved, at sukkersyge er en sygdom, mens vitaminmangel er en mangeltilstand, men ikke i sig selv en sygdom.

Deltagerne i en paneldiskussion var enige om, at den helt store udfordring ved ontologier er selve arbejdet med at udarbejde dem. Det kræver fagfolk med stor og bred viden om det emne, ontologien skal dække.
- En ontologi er et forsøg på at binde begreber sammen med relationer. Men hvor finmasket skal den være? For os som firma vil det altid være en kommerciel afvejning: Hvad skal den bruges til, hvor finmasket er den nødt til at være? sagde Bo Vincents fra Ankiro.
Paneldeltagerne var også enige om, at ontologier især er anvendelige inden for afgrænsede områder. Selvom der forskes i at fremstille ontologier mere eller mindre automatisk ud fra eksisterende kilder, kræver de stadig en stor manuel indsats.
- Jeg kan ikke forestille mig, at vi får en total ontologi, så Google kan søge på alt. Det er mere realistisk, at vi vil se domæneontologier, måske kommer der flere for hvert domæne, sagde seniorforsker Patrizia Paggio fra Center for Sprogteknologi ved Københavns Universitet. Når sprogfolk taler om domæner, mener de fagområder eller områder, der på anden måde har et fælles sprog.

Ontologier var blot en af de sprogteknologier, som blev omtalt på mødet. Før man kan slå et ord op i en ontologi, kan det være praktisk forinden at benytte andre teknologier. For eksempel kan man finde grundformen af et ord, så ontologien ikke behøver at indeholde alle bøjningsformer. Og man kan bruge en fonetisk stavekontrol, der korrigerer for ord, som er stavet forkert.
De ontologibaserede værktøjer blev på mødet præsenteret som alternativer til Google-metoden. Men der var også flere eksempler på brug af sprogteknologi til at forbedre en
Google-søgning.
For eksempel viste firmaet Termplus det nordiske forskningsprojekt Norna, Nordisk begrebsindeks. Det kan oversætte begreber mellem sprogene dansk, norsk og svensk.
- Med Norna kan man udvide sin Google-søgning ved at søge på både den danske, svenske og norske term. Det giver ofte flere resultater, end hvis man kun søger på dansk, fortalte terminologikonsulent Ruth Feil fra Termplus.

Læs mere om sprogteknologi i 3. sektion,
Computerworld CTO

Billedtekst:
Søgesystemet Fagjob afgør ved hjælp af ontologier, at pædagog er en stillingsbetegnelse, mens Jylland og Sjælland er områder.




Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
Jobindex Media A/S
Salg af telemarketing og research for it-branchen, it-kurser og konferencer

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
Bliv klar til AI Act: Det vil påvirke både din udvikling, drift og organisation

Fordelene ved at anvende kunstig intelligens bliver stadig mere udtalte, og både som virksomhed og myndighed er det i stigende grad uholdbart ikke at udforske mulighederne. Men der er også risici forbundet på den nye teknologi, og på dette formiddagsseminar ser vi på, hvordan verdens første regulatoriske kompleks – EUs kommende AI Act – adresserer behovet for en etisk, ansvarlig og kontrolleret anvendelse af AI.

20. august 2024 | Læs mere


Det Digitale Produktpas

Kom med og hør om, hvordan du kommer i gang med at sikre din virksomhed er klar til Det Digitale Produktpas. Vi sætter fokus på, hvordan du bliver klædt på til at få styr og struktur på dine data, samt hvilke krav du skal sætte til dine leverandører og andre i din værdikæde, for at sikre den nødvendige information er tilgængelig.

21. august 2024 | Læs mere


Cyber Security Summit 2024

På Cyber Security Summit får du indsigt i det aktuelle trusselslandskab, overblikket over de nyeste værktøjer og trends indenfor sikkerhedsløsninger, indsigt i de relevante rammeværktøjer og krav samt de bedste løsninger og værktøjer til at sikre effektiv drift og høj compliance.

27. august 2024 | Læs mere