Dansk oversættermaskine kan være klar på et år

Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den Computerworld d. 1. november 2002.


I løbet af tolv måneder vil der kunne udvikles et alment automatisk dansk oversætterprogram, der kan lægges på nettet, vurderer Center for Sprogteknologi.

tema: Sprogteknologi

Flere steder på nettet findes oversættermaskiner, hvor brugerne kan taste et ord på et sprog og få det oversat til et andet. Således oversætter Altavista ni hovedsprog til engelsk og de otte af dem den anden vej samt mellem tysk og fransk. Derimod findes der ikke et tilsvarende alment fuldautomatisk program, der kan oversætte til eller fra dansk.

Ifølge Center for Sprogteknologi (CST) kan der etableres den første version af en brugbar oversættermaskine, der kan føre engelsk over til dansk i løbet af tolv måneder.

- Det bør være en offentlig opgave at sætte udviklingen af oversættermaskiner til og fra dansk. Staten bør sørge for, at befolkningen, virksomhederne og den offentlige sektor har tidssvarende sproglige redskaber til rådighed, såvel af kulturelle som konkurrencemæssige grunde samt af hensyn til kommunikationen med EU, siger direktør Bente Maegaard fra CST.

- Der står internationale firmaer bag oversætterprogrammerne til hovedsprogene, men det vil være for dyrt for dem at udvikle til dansk - der er for få danskere. Derimod kan man sagtens forstille sig en fælles finansiering, hvor bidrag fra den danske stat suppleres med EU-midler og investeringer fra private firmaer, siger hun.

Grundlaget findes
CST er en såkaldt sektorforskningsinstitution under Videnskabsministeriet, som skal udføre og fremme forskning og kommerciel udvikling af sprogteknologi og datalingvistik herhjemme. I 1999 ansøgte institutionen EU om 4,3 millioner kroner som skulle udbygge det eksisterende PaTrans-system, så det kunne oversætte ministerie- og administrationssprog fra engelsk til dansk, udvikle et modul til dansk-engelsk og generelt øge hastigheden. Denne bevilling gik dog ikke igennem.

I dag anslår Bente Maegaard, at det vil koste omkring seks millioner kroner at udvikle en mere generel dansk oversættermaskine til nettet. Den vil i begyndelsen være begrænset i forhold til dem, der findes i dag til hovedsprogene, men absolut brugbar.

PaTrans-systemet, som CST har udviklet i samarbejde med det danske oversættelsesbureau, Lingtech A/S, benyttes i dag af Lingtech til oversættelse af patenttekster i et omfang svarende til 3,5 - 4 millioner ord om året. Der er tale om et automatisk oversættelsesprogram, der er skræddersyet til de lange sætninger i patentansøgninger og -beskrivelser. Paradoksalt nok kan denne udgave vise sig ikke at være velegnet til de kortere sætninger i dagligsprog. Programmet benytter et ordforråd og en grammatik, der er specialiseret til patentsprog.

PaTrans-systemet er programmeret i Prolog og C til at køre på Unix, og det har en ikke-standard kerne, der har rødder i EU-projektet EUROTRA. Hvis systemet skal danne grundlag for en almen oversættermaskine på nettet, skal det opdateres til standardværktøjer, der kan afvikles på pc. Dernæst skal der opbygges en ordbog med et mere generelt ordforråd, og endelig skal grammatikken opdateres.

Vejen til maskinen
Opdateringen til generelt sprog kræver, at nogle datalingvister analyserer noget tekst af den type, oversætter maskinen skal benyttes på. Herudfra skal algoritmerne i den sproglige model optimeres til generelt sprog. Forskellen på grammatik til lange sætninger og til korte er blandt andet, at den første arbejder med meget udførlige sætningsbeskrivelser, mens den anden skal kunne behandle et stort antal variationer eller undtagelser.

Næste skridt er at udvide den eksisterende ordbog, som oversættermaskinen slår op i. CST vurderer, at denne ordbog skal op på omkring 100.000 ord for at give tilstrækkelig tilfredsstillende resultater. Det er blandt andet på grund af ord, der har flere betydninger, og sprogenes forskellige grammatikker, at man ikke bare kan vende en oversættermaskine, der oversætter en vej - for eksempel engelsk-dansk. Man kan støtte sig på en del af arbejdet, men grundlæggende skal dansk-engelsk udvikles særskilt.

Sandsynlige sætninger
De første oversættermaskiner oversatte ord for ord, men det gav ubehjælpsomme resultater. I dag søger man at bestemme det bedste bud på en oversat sætning ved at beregne den rigtige kombination af de mulige oversættelser af de enkelte ord.

CST er i færd med at skabe en sprogteknologisk ordbase for dansk. Den kommer til at indeholde de hyppigst anvendte danske ord - i første omgang inden for medicin- og sundhedsområdet, miljø og it - og den vil kunne danne udgangspunkt for udvidelsen af den eksisterende PaTransordbog.

Billedtekst:
- Det vil koste omkring seks millioner kroner at udvikle en generel dansk oversættermaskine til nettet, siger Bente Maegaard, direktør i CST. Foto: Mads Madsen




Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
Targit A/S
Udvikling og salg af software til business intelligence.

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
Industry 4.0 – sådan udnytter du AI og digitalisering til optimering af din produktion.

På denne konference fokuserer på en digitaliseret optimering af processer i produktions- og procesorienterede virksomheder. Herved bliver du f.eks. i stand til at kombinere maskiner med sales forecasting og derved planlægge anvendelsen af produktionsapparat og medarbejderallokering effektivt – samt begrænse materialespild og nedetid ved at optimere produktionsplanlægning og omstilling af produktionsmateriel.

04. september 2024 | Læs mere


Roundtable for sikkerhedsansvarlige: Hvordan opnår man en robust sikkerhedsposition?

For mange virksomheder har Zero Trust og dets principper transformeret traditionelle tilgange til netværkssikkerhed, hvilket har gjort det muligt for organisationer at opnå hidtil usete niveauer af detaljeret kontrol over deres brugere, enheder og netværk - men hvordan implementerer man bedst Zero Trust-arkitekturer i et enterprise set up? Og hvordan muliggør Zero Trust-arkitekturen, at organisationer opnår produktivitetsfordele med AI-værktøjer samtidig med, at de forbliver sikre i lyset af fremvoksende trusler?

18. september 2024 | Læs mere


Nye forretningsmæssige gevinster med Microsoft Dynamics 365

Eksperter fra CGI stiller skarpt på hvordan, du lærer også hvorfor det er vigtigt at have fokus på både processer, teknologi og mennesker - og hvordan du kommer i gang med løbende optimering af forretningsudvikling.

25. september 2024 | Læs mere