Kartograf på Internet

Den nye standard XML Topic Maps vil betyde en revolution for informations-søgning og navigering på Internet og Intranet.

Internet-søgemaskiner er meget primitive værktøjer. Den stakkels bruger har stort ingen mulighed for at kommunikere, hvad man ønsker at finde; et lille tekstfelt accepterer et eller flere søgeord, måske med booleske parametre, men søgemaskinen aner intet om, i hvilken sammenhæng søgeordet skal opspores. Søgemaskinen svarer med en liste over dokumenter, der måske passer til søgekriteriet, men i øvrigt kan handle om et helt andet emne.


Det bliver helt anderledes med Topic Maps, en ny ISO-standard, der allerede er døbt "informationsuniversets GPS". Topic Maps kan bruges til at strukturere og præsentere meget komplekse, heterogene informationssamlinger, der befinder sig på Internet, Intranet eller den lokale computer. Det er endda muligt at oprette Topic Maps for ressourcer, som man slet ikke har skriveadgang til.


Siden vedtagelsen som ISO-standard i sommeren 1999 (ISO 13250:1999) er Topic Maps blevet et varmt emne blandt XML-udviklere. Et nyt konsortium arbejder på en XML-udgave af standarden, der oprindelig er udviklet til XML-sprogets "storebror", SGML.


Stikordsfortegnelse


Formålet med Topic Maps er at kortlægge den viden, som er indeholdt i elektroniske dokumenter. Mange virksomheder ligger inde med store mængder informationer, gemt som regneark, tekstfiler og elektroniske postmeddelelser; men endnu mangler effektive teknologier, der præsenterer denne vidensskat i et miljø, hvor relationer som eksisterer mellem dokumenter som "oplæg til projektmøde" og "referat af projektmøde" synliggøres og gøres navigerbare.


For at illustrere standardens muligheder, kan man forestille sig en ny medarbejder i en virksomhed, der søger efter dokumenter om "sikkerhed" i den interne database. En almindelig fritekstsøgning præsenterer blot en liste med dokumenter, der indeholder ordet "sikkerhed", eller i bedste fald er arkiveret med dette ord som nøglebegreb.


Topic Maps skaber en dynamisk oversigt over alle begreber, der er relateret til emnet "sikkerhed". I et bilfirma kunne det f.eks. være "sikkerhedssele", "crashtest", "airbag" eller "mobiltelefon". Ved at klikke på relationer som "giver bedre sikkerhed" (sikkerhedssele, airbag), "giver dårligere sikkerhed" (mobiltelefon) eller "tester sikkerhed" (crashtest) kan brugeren hurtigt danne sig et overblik over emnet og alle dokumenter, der kan være relevante for hende.


På overfladen kan Topic Maps sammenlignes med stikordsfortegnelsen i en bog, der indeholder emner (topics) og sidehenvisninger (occurrences). Bogens forfatter eller redaktør udvælger emner, der sammen danner et spejl af værkets indhold; nogle bøger indeholder adskillige stikordsfortegnelser, der behandler forskellige emner, og typografiske konventioner kan hjælpe med at forklare, om sidehenvisningen peger på en nærmere beskrivelse af emnet eller kun en forekomst af ordet i anden sammenhæng.


Topic Maps består af de såkaldte TAO'er, Topics (emner), Associations (associationer) og Occurrences (forekomster). Topics kan være "litteratur", "person", "forfatter" eller et bestemt individ, f.eks. "H.C. Andersen". Standarden sætter ingen grænser for, hvad der kan være et gyldigt emne; en ting, et koncept eller en ide, hvad enten den eksisterer eller ej, i nogen form overhovedet.


Hvis man drager en parallel til det geografiske kortlægningsarbejde, svarer emnerne til en liste over alle lande i verden. Men listen fortæller ikke noget om, hvordan landene ligger i forhold til hinanden. Her kommer associationer ind i billedet. Denne mekanisme bruges til at formalisere relationer mellem emner. En association kan eksempelvis være "grænser op til". Ved at danne en "grænser op til" association mellem to lande, f.eks. "Danmark" og "Tyskland", kan man markere, i hvilket forhold de står til hinanden.


En lignende Topic-Assocation akse bruges indenfor de semantiske netværk, hvor opgaven består i at formalisere viden, som kan viderebehandles af software. Den nye ISO-standard tilføjer endnu en akse, Topic-Occurrence. Alle emner kan indeholde én eller flere pegere mod forekomster af den beskrevne ressource. Det kan være en web-side, et billede eller en lydoptagelse.


I ovenstående eksempel, hvor "Danmark" og "Tyskland" begge repræsenterer emner, kunne forekomster eksempelvis være landenes nationalflag eller officielle hjemmesider. Hverken associationer eller forekomster er underlagt nogen form for begrænsninger; det er helt op til redaktøren at definere, hvilke regler der skal gælde for datasamlingen.


Typer


Det redaktionelle arbejde med at udfærdige Topic Maps kan inddeles i to segmenter; i den første fase skal redaktøren finde de typer (klasser), som skal danne grundlag for emner, associationer eller forekomster. Gyldige typer kan eksempelvis være "land", "artikel" eller "grænser op til". Det er muligt at skabe et hierarki af typer, eksempelvis "kontinent", "nation" og "region".


Topics som "Sverige" og "Japan" kan være instanser af typen "nation", mens Afrika oprettes som instans af typen "kontinent". Relationen mellem "Europa" og "Frankrig" har måske typen "ligger i", mens en forekomst for emnet "Frankrig" har typen "nationalsang".


Topic Maps skelner ikke formelt mellem typer og instanser. Det er faktisk en af standardens mægtigste funktioner. Fordi alle typer samtidig selv er emner, kan Topic Maps anvendes til at beskrive sig selv. Samtidig har denne del af datasamlingen, der kan kaldes skemaet eller skabelonen, en særstilling, fordi den går forud for oprettelsen af selve hovedstammen.


Når alle typer er defineret, starter arbejdet med at finde og oprette alle emner, associationer og forekomster. Denne arbejdsproces er analog med oprettelsen af et stikordsregister i en trykt bog, selvom teknologien af naturlige årsager tilbyder muligheder, der ikke findes i papirmediet.


Færdige Topics Maps kan indeholde flere millioner af emner, der hver er forbundet med adskillige relationer og knyttet til snesevis af forekomster. I den forbindelse er det nærliggende, at arbejdet med at oprette instanser i høj grad bør automatiseres. Kildematerialets sammensætning bestemmer, om processen kan gennemføres fuld- eller halvautomatisk; det bedste udgangspunkt er naturligvis færdige stikordsfortegnelser med typografiske konventioner, der adskiller emner og forekomster.


I Internet- og Intranet-sammenhæng bliver redaktøren som oftest konfronteret med en samling filer, der skal fungere som datagrundlag for Topic Maps. Hvis dokumenterne allerede indeholder semantiske markeringer, f.eks. XML-filer med veldefinerede DTD'er (Document Type Definitions), bliver arbejdet meget lettere end hvis der er tale om almindelige tekstfiler uden metadata.


Sammensmeltning


Det bedste grundlag er allerede eksisterende Topic Maps. ISO-standarden beskriver eksplicit, hvordan to eller flere Topic Maps kan forenes. Det er ikke en helt triviel opgave; emnet "Paris" er måske defineret i begge filer, men der henvises henholdsvis til den franske hovedstad og en by i USA. Den mest ligefremme løsning, nemlig at danne et nyt emne, der hedder "Paris" og indeholder alle associationer og forekomster fra de to gamle emner, er ikke nødvendigvis den rigtige.


Problemet kan løses ved at knytte "Paris" til en unik identifikation på Internet, en slags CPR- eller CVR-nummer. Standarden indeholder en funktion, "public subject", der varetager denne opgave. Der er tale om en attribut, "identity", som knyttes til emne-instanser. Identity-attributen kan eksempelvis linke til den officielle ISO-fortegnelse over landekoder, en persondatabase eller noget helt tredje.


En anden mekanisme, der tillader flere forekomster af emner med samme navn, begrænser instansens gyldighed ved at indstille dens rækkevidde, "scope". Både emner, associationer og forekomster - kort sagt alle elementer i Topic Maps - kan indeholde en scope-attribut. Den peger mod et tema, "Theme", der naturligvis også selv er et emne. Ved at tilføje et nyt tema kan systemet udvides med en ny dimension, uden at eksisterende elementer bliver krænket.


"Paris" har måske én betydning under temaet "Frankrig" og en anden fortolkning under "USA". Emnet "Bill Clinton" er måske forbundet med "Det Hvide Hus" gennem associationen "bor i", men denne association er kun gyldig i forbindelse med temaet "1993-2001".


Internet-søgemaskiner kan udnytte både rækkevidde og temaer, når Topic Maps fra forskellige websteder skal fusioneres til en samlet meta-database. Det kan revolutionere den måde, vi søger efter informationer. Den flade, næsten ubrugelige resultatliste med hundredvis af søgeresultater afløses af intelligente Topic Maps, der gør det muligt at navigere mellem relaterede emner.


De fleste søgeprogrammer og søgemaskiner på Internet bruger i dag almindelig fuldtekstindeksering. Foruden muligheden for at indtaste ord eller sætninger, der må forekomme i teksten, kan brugeren anvende booleanske parametre som AND, OR og NOT til at indsnævre sin søgning. Det er ikke muligt at søge efter ord i en bestemt kontekst. Sammenligner man med en trykt stikordsfortegnelse, svarer det til at oprette et indeks med alle ord i bogen, fjerne nogle hundrede af de mest almindelige ord som "du" og "den", og medtage henvisninger til hver eneste side, hvor de andre ord findes mindst én gang.


Knowledge Management


Den officielle ISO-standard for Topic Maps blev vedtaget i sommeren 1999. Flere medlemmer af arbejdsgruppen under ISO, der udarbejdede standarden, har startet deres egne firmaer for at udvikle færdige software-implementationer, men endnu kan kun en håndfuld firmaer tilbyde Topic Map-relaterede produkter. Et nyt konsortium, "TopicMaps.org", arbejder på en mere lettilgængelig XML-version af teknologien. Konsortiet har netop afleveret sin første specifikation for XML Topic Maps (XTM), og det ventes at den færdige standard kommer indenfor få måneder.


ISO-standarden repræsenterer et åbent format, som kan bruges til udveksling af Topic Maps, men beskæftiger sig ikke med, hvordan de repræsenteres internt i applikationer eller visualiseres overfor redaktører eller slutbrugere.


I modsætning til andre former for metadata har Topics Maps også en værdi, hvis der ikke er tilknyttet ressourcer (forekomster). Den viden, som gennem emner og associationer er lagret i kortet - f.eks. "H.C. Andersen er født i Odense" - mister ikke sin værdi, selvom kortet ikke linker til nærmere beskrivelser af forfatteren eller hans fødeby.


Topic Maps er fuldstændig uafhængige af de ressourcer, som fungerer som datagrundlag. Det er eksempelvis muligt at skabe en Topic Map over en webside, uden at have andet end læseadgang til siden, ligesom man kan skabe et ubegrænset antal Topic Maps, der peger på samme side.


Analysefirmaet Gartner Group forudsiger i en rapport fra juni 2000, "Topic Maps; Emerging Knowledge Management Technology," at halvdelen af alle portaler og søgemaskiner er baseret på Topic Maps inden 2003.


Fakta: De første software-produkter med Topic Maps


Empolis


Tyske Empolis (tidl. STEP) tilbyder en bred palette af værktøjer til Knowledge Management. Firmaet er et datterselskab af den tyske mediekoncern Bertelsmann. Empolis' har installeret et omfattende website om Topic Maps med dokumentation, specifikationer og demonstrationer. K42 Knowledge Server 1.0 er en komplet Java-baseret løsning til virksomheder og Internet-portaler, som ifølge softwarefirmaet understøtter Topic Maps med mange millioner emner. En evalueringsversion kan hentes på firmaets website.


http://www.topicmaps.com/




InfoLoom


Softwarefirmaet InfoLoom er grundlagt af Michel Biezunski, en af redaktørerne bag den oprindelige ISO 13250 standard. Firmaet arrangerer workshops og seminarer om Topic Maps. Det vigtigste softwareprodukt er et værktøj til oprettelse og redigering af Topic Maps. Programmet tilbydes i to versioner, Topic Map Loom 4X og Topic Map Loom Enterprise.


http://www.infoloom.com/




Mondeca


Det centrale produkt hos nystartede Mondeca er "Topic Navigator", en Topic Map baseret løsning til informationsadgang over Internet. En demonstrationsversion af programmet kan testes direkte på Internet. Mondeca's teknologi bygger på en EJB (Enterprise Java Beans) arkitektur.


http://www.mondeca.com/




Ontopia


En gratis evalueringsversion af Ontopias Topic Map Engine, implementeret som Java Server Pages (JSP), kan hentes på firmaets hjemmeside. Her kan man også teste flere færdige Topic Maps og fordybe sig i tutorials og artikler om teknologien.


http://www.ontopia.net/


Fakta: Topic Map eksempel


Eksemplet indeholder syv emner, en association og tre forekomster. De første fire emner, "bog", "forfatter", "skriver" og "beskrivelse", bruges til at definere typer, som senere skal anvendes som instanser. Bemærk, at både associationer og forekomster har egne typer. I associationen "skriver" defineres to roller, "forfatter" og "bog".










bog









har skrevet









beskrivelse









Lille topic map












H.C. Andersen

Andersen, H.C.











O.T.


















Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
Højer og Lauritzen ApS
Distributør af pc- og printertilbehør.

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
Industry 4.0 – sådan udnytter du AI og digitalisering til optimering af din produktion.

På denne konference fokuserer på en digitaliseret optimering af processer i produktions- og procesorienterede virksomheder. Herved bliver du f.eks. i stand til at kombinere maskiner med sales forecasting og derved planlægge anvendelsen af produktionsapparat og medarbejderallokering effektivt – samt begrænse materialespild og nedetid ved at optimere produktionsplanlægning og omstilling af produktionsmateriel.

04. september 2024 | Læs mere


Roundtable for sikkerhedsansvarlige: Hvordan opnår man en robust sikkerhedsposition?

For mange virksomheder har Zero Trust og dets principper transformeret traditionelle tilgange til netværkssikkerhed, hvilket har gjort det muligt for organisationer at opnå hidtil usete niveauer af detaljeret kontrol over deres brugere, enheder og netværk - men hvordan implementerer man bedst Zero Trust-arkitekturer i et enterprise set up? Og hvordan muliggør Zero Trust-arkitekturen, at organisationer opnår produktivitetsfordele med AI-værktøjer samtidig med, at de forbliver sikre i lyset af fremvoksende trusler?

18. september 2024 | Læs mere


Nye forretningsmæssige gevinster med Microsoft Dynamics 365

Eksperter fra CGI stiller skarpt på hvordan, du lærer også hvorfor det er vigtigt at have fokus på både processer, teknologi og mennesker - og hvordan du kommer i gang med løbende optimering af forretningsudvikling.

25. september 2024 | Læs mere