Computerworld News Service: Europa-Kommissionen tilbyder nu udviklere af oversættelsessoftware fri adgang til omkring en million sætninger oversat mellem 22 af EU's 23 officielle sprog.
Med denne data håber kommissionen at hjælpe til en forbedring af kvaliteten af en vifte af sprogværktøjer, inklusive grammatik- og stavekontrol, online ordbøger og maskinoversættere – især for de mindre brugte sprog som lettisk og romansk.
Sætninger er for det meste taget fra Acquis Communautaire," der er den lovtekst, som skal implementeres af alle nye EU-medlemmer, inklusive EU's traktater, direktiver og regulativer, samt dommerkendelser fra EU-Domstolen.
Oversat af professionelle oversættere dækker de emner såsom it, telekommunikation, arbejdsret, landbrug og fiskeri.
1.750 oversættere
Oversættelserne er en del af den database, som bruges af kommissionens permanente stab af 1.750 oversættere, og bliver modsvaret sætning for sætning i hvert af de 22 sprog, samt får mærkater med emneklassifikationer.
Sammenpasningen og mærkningen gør sætningerne specielt brugbare for udviklere af statistisk maskinoversættelsessoftware, som må samle tusinder af sammenpassede sætninger i de sprog, der skal oversættes mellem, således at de kan udregne den mest sandsynlige oversættelse for ethvert givent udtryk.
Siden sammenpasningen af sætningerne allerede er gjort, sparer udviklerne tid – og den enorme størrelse af Aquis Communautaire vil gøre deres udregninger mere nøjagtige.
Indtil nu har udviklere typisk været hensat til at gennemsøge nettet for tekster oversat til forskellige sprog og derefter bruge andet softwareværktøj til at gætte, hvor sætninger starter og slutter, i arbejdet med at sammenpasse dem.
Mens frigivelsen af denne data vil hjælpe softwareudviklerne, gør kommissionen det ikke af helt uegennyttige årsager:
Den håber på, at det, at have bedre og billigere automatisk oversættelsessoftware til rådighed, vil hjælpe talerne af EU's mindretalssprog ved at give dem adgang til onlineinformation, der aktuelt kun er til rådighed i de mere talte sprog.
Oversat af Thomas Bøndergaard