Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den Computerworld d. 21. oktober 2005.
Outlier detection er nyttig, når man vil klarlægge en brugers ide om, hvad der udgør en sjælden afvigelse i et datasæt.
Forfattere:
Trine Sofie Vestergaard Nielsen, 31 år, og Tøger Gralle Nørgaard, 27 år. Begge har en eksamen i datalogi fra DIKU (Datalogisk Institut Københavns Universitet).
Skrev om:
Outlier detection (OD) - det at finde sjældne afvigelser eller exceptionelle værdier i et datasæt. Hidtil har man benyttet statistik eller klyngeanalyse til at belyse dette. Trine Sofie Vestergaard Nielsen og Tøger Gralle Nørgaard mente, at man i stedet kunne benytte algoritmen "Outlier by example".
Med andre ord:
Ud fra en overordnet beskrivelse af algoritmen, der oprindeligt er præsenteret af forskere fra blandt andet Carnegie Mellon University, forsøgte Trine Sofie Vestergaard Nielsen og Tøger Gralle Nørgaard at genskabe algoritmen og skrive et program, der brugte den.
Hvad bruges det til?
- Outlier detection er relevant, når man vil undersøge registrerings- eller målefejl, svindel med kreditkort, falske forsikringskrav samt detektere indbrud i datanet (intrusion detection). Her kan det være interessant at se nærmere på det unormale tilfælde frem for det normale og brugerens evne til at opfange en afvigelse.
Kan jeres program anvendes i
praksis?
- Afprøvningen af algoritmen viste store uregelmæssigheder i forhold til, hvad der tidligere var rapporteret. Vi bestemte os derfor til i stedet at gennemføre en mere realistisk og brugerorienteret afprøvning, som viste, at algoritmen er mindre funktionel end hidtil antaget. Det betyder også, at selve programmet ikke har særlig stor anvendelse i praksis. Dele af det ville dog kunne anvendes i sammenhæng med andet software til dataanalyse.
Hvilke hjælpemidler har I
benyttet?
- Vi har programmeret i Java og anvendt Eclipse som hjælpemiddel. Det er et udviklingsværktøj til Java.
Hvordan fik I ideen?
- Tidligere på studiet havde vi lavet projekter om knowledge discovery - også kaldet data mining - og var her stødt på begrebet outlier detection, der virkede som et interessant og samtidigt overset område.
Hvordan er jeres fremtidsudsigter?
- Trine er jobsøgende, mens jeg allerede har været så heldig at få mit drømmejob. 1. november starter jeg som konsulent hos SAS Institute i deres public division.
Den 13. oktober fik Trine Sofie Vestergaard Nielsen og Tøger Gralle Nørgaard karakteren 10 for deres speciale.
Læs specialet: outlier.hopto.org