Sprogteknologi gør søgninger klogere

Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den Computerworld d. 3. februar 2006.


Ved at udnytte viden fra sprogforskningen forsøger forskere at gøre informationssøgning mere effektiv.

Når et søgesystem ved noget om det område, en bruger søger information om, kan det give mere brugbare søgeresultater.
Det var et gennemgående træk ved de præsentationer, som en gruppe forskere og erhvervsfolk gav hinanden ved et møde i Danmarks Erhvervsforskningsakademi i januar. Mødets overskrift var "Når
Google bliver for meget - og samtidig ikke er nok."
Google blev brugt som eksempel på den traditionelle fritekstsøgning, hvor et søgesystem indekserer alle ord, der optræder i et dokument. Det gør det nemt at finde et dokument, hvis man ved, hvilke ord der står i det. Men en søgning på ordet "elev" vil ikke finde et dokument, hvori der ikke står "elev", men i stedet "studerende".
Direktør Bo Vincents fra firmaet Ankiro demonstrerede en løsning, hans firma har udviklet. Det er LO-projektet Fagjob, der er en jobsøgningstjeneste.
Han søgte først på ordet "pædagog", det gav 432 job. Derefter udvidede han søgningen til "pædagog jylland", hvorved søgeresultatet blev indskrænket til 159. Men da han tilføjede ordet "sjælland", kom der pludselig flere resultater. Søgesystemet havde altså underforstået et "og" mellem pædagog og Jylland, mens det indsatte et "eller" mellem Jylland og Sjælland.
- Det kan lade sig gøre, fordi Fagjob har en viden om geografi. Således finder det en annonce, hvis der står "Skive" i den, men ikke "Jylland". Det skyldes, at systemet ved, at Skive er en by i Jylland. Og når systemet ved, at Jylland og Sjælland er geografiske udtryk, regner det med, at brugeren vil se på stillinger i enten Jylland eller Sjælland, sagde Bo Vincents.
Som et yderligere eksempel på den viden, der er lagt ind i Fagjob, nævnte han, at man kunne finde en stilling ved at søge på "deltid". Det ord optrådte ellers ikke i stillingsannoncen, men der stod, at stillingen var på 28 timer.

Fagjob er et eksempel på brug af det, nogle sprogforskere kalder en ontologi. En ontologi er en struktureret beskrivelse af et begrebsområde. En geografisk ontologi kan for eksempel fortælle, at Skive er en by i Jylland, der en landsdel i Danmark, der er et land i Europa.
Når brugeren indtaster søgeord i Fagjob, bliver de slået op i søgesystemets ontologi. Systemet forsøger at afgøre, om der er tale om stillingsbetegnelser, geografiske betegnelser eller andre kategorier. På den måde kan systemet sørge for, at der altid underforstås et "eller" mellem stednavne, mens der underforstås "og" mellem stillingsbetegnelsen og stednavnene.
Hvis et søgesystem skal anvende en ontologi, skal alle de dokumenter, der kan søges i, indekseres ud fra ontologien. Søgeteksten analyseres på samme måde ud fra ontologien, hvorefter det kan lade sig gøre at finde dokumenter, der opfylder søgekriterierne.

Et dansk forskningsprojekt, Ontoquery, har udviklet et særligt sprog ved navn Ontolog. Det kan bruges til at beskrive indholdet i dokumenter, forespørgsler og ontologier. På mødet viste forskerne en prototype, hvor de havde benyttet en ontologi om ernæring til at klassificere en række tekster om samme emne.
- Vi har fået nogle gode teoretiske resultater, blandt andet gennem udviklingen af Ontolog. Prototypen viser, at det kan bruges i praksis, siger professor Per Anker Jensen fra Handelshøjskolen i København.
Som eksempel nævner han en søgning efter "behandlingen af sygdomme". Søgeresultaterne er rangordnet efter, hvor godt dokumenterne opfylder søgningens krav. Således får et dokument karakteren 95 procent, da det indeholder teksten "behandling af diabetes mellitus (sukkersyge)". Et dokument, hvori der står "behandling af vitaminmangel", får derimod kun 50 procent. Det skyldes, at ontologien ved, at sukkersyge er en sygdom, mens vitaminmangel er en mangeltilstand, men ikke i sig selv en sygdom.

Deltagerne i en paneldiskussion var enige om, at den helt store udfordring ved ontologier er selve arbejdet med at udarbejde dem. Det kræver fagfolk med stor og bred viden om det emne, ontologien skal dække.
- En ontologi er et forsøg på at binde begreber sammen med relationer. Men hvor finmasket skal den være? For os som firma vil det altid være en kommerciel afvejning: Hvad skal den bruges til, hvor finmasket er den nødt til at være? sagde Bo Vincents fra Ankiro.
Paneldeltagerne var også enige om, at ontologier især er anvendelige inden for afgrænsede områder. Selvom der forskes i at fremstille ontologier mere eller mindre automatisk ud fra eksisterende kilder, kræver de stadig en stor manuel indsats.
- Jeg kan ikke forestille mig, at vi får en total ontologi, så Google kan søge på alt. Det er mere realistisk, at vi vil se domæneontologier, måske kommer der flere for hvert domæne, sagde seniorforsker Patrizia Paggio fra Center for Sprogteknologi ved Københavns Universitet. Når sprogfolk taler om domæner, mener de fagområder eller områder, der på anden måde har et fælles sprog.

Ontologier var blot en af de sprogteknologier, som blev omtalt på mødet. Før man kan slå et ord op i en ontologi, kan det være praktisk forinden at benytte andre teknologier. For eksempel kan man finde grundformen af et ord, så ontologien ikke behøver at indeholde alle bøjningsformer. Og man kan bruge en fonetisk stavekontrol, der korrigerer for ord, som er stavet forkert.
De ontologibaserede værktøjer blev på mødet præsenteret som alternativer til Google-metoden. Men der var også flere eksempler på brug af sprogteknologi til at forbedre en
Google-søgning.
For eksempel viste firmaet Termplus det nordiske forskningsprojekt Norna, Nordisk begrebsindeks. Det kan oversætte begreber mellem sprogene dansk, norsk og svensk.
- Med Norna kan man udvide sin Google-søgning ved at søge på både den danske, svenske og norske term. Det giver ofte flere resultater, end hvis man kun søger på dansk, fortalte terminologikonsulent Ruth Feil fra Termplus.

Læs mere om sprogteknologi i 3. sektion,
Computerworld CTO

Billedtekst:
Søgesystemet Fagjob afgør ved hjælp af ontologier, at pædagog er en stillingsbetegnelse, mens Jylland og Sjælland er områder.




Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
Jobindex Media A/S
Salg af telemarketing og research for it-branchen, it-kurser og konferencer

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
Sådan bruger du aktivt AI til at styrke din cybersikkerhedsindsats

Kan AI styrke din cybersikkerhed og forebygge f.eks. ransomwareangreb? Ja – og endda særdeles effektivt! På denne konference kan du blive klogere på, hvordan du i praksis anvender AI til at styrke dit sikkerhedsniveau – og gøre cyberbeskyttelsen mere fleksibel.

27. november 2024 | Læs mere


Styrk din virksomhed med relevant, pålidelig og ansvarlig AI integration med SAP

Kom og få indsigt i, hvordan du bruger AI til at transformere og effektivisere dine arbejdsgange. Vi kigger nærmere på AI-assistenten Joule, der vil revolutionere måden, brugerne interagere med SAP’s forretningssystemer. Og så får du konkret viden om, hvordan du kommer i gang med at bruge AI til at booste din forretningsudvikling.

03. december 2024 | Læs mere


Fyr op under vækst med dataanalyse, AI og innovation

Hvor langt er den datadrevne virksomhed nået i praksis? Det kan du høre om fra virksomheder, som har foretaget transformationen. Du kommer også til at høre, hvordan de anvender AI i processen, hvilke mål de har nået, hvordan de har høstet gevinsterne og hvilke nyskabelser, der er på vej i horisonten.

04. december 2024 | Læs mere