Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den Computerworld d. 1. november 2002.
Sprogteknologi har endnu ikke fået sit endelige gennembrud. Men teknologien pibler alligevel frem på de forventede områder.
Tema: sprogteknologi
Der var store forventninger til taleteknologi koblet med WAP. På grund af WAP's fiasko blev de ikke indfriet. Og taleteknologien venter nu mere end mange andre applikationer på den indsprøjtning, teknologien vil få af tredjegenerations mobiltelefoni.
Det fastslår Roy Band, der er europæisk ansvarlig for IBM's strategiske alliancer om systemer til talestyring.
- De fleste opgaver er multimodale. Det vil sige, at de for en dels vedkommende består af tale og for en anden del af tekst. Muligheden for samtidig at sende tale og data med UMTS-telefoni vil ændre hele billedet, mener Roy Band.
Men de senere par års krise har forsinket udbredelsen af UMTS og har også ramt udbyderne af tjenester hårdt. Det har ifølge Roy Band forsinket udbredelsen af taleteknologi, men ikke bremset udviklingen af selve teknologierne. Den sker ifølge Roy Band som forventet.
Et af de områder, hvor talestyring for et par år siden blev spået et meget hurtigt gennembrud, var til styring af forskellige funktioner i biler.
Det har taget længere tid end forventet og er først så småt ved at dukke op nu i kommercielle anvendelser. For eksempel har Honda netop i USA lanceret en version af sin Accord-model med indbygget talestyring.
Taleportaler
Stemmestyrede portaler er et område, hvor Roy Band forventer en kraftig udvikling:
- Jeg forventer at se sådanne portaler både hos internetleverandører og hos virksomheder. Portalerne vil være et punkt, hvor data samles, og der bliver adgang til dem fra forskellige typer af apparater.
Som eksempler på virksomheder, der i dag har taget stemmerstyrede portaler i anvendelse, nævner Roy Band banker, forsikringsselskaber og realkreditinstitutter. Det er dog primært i USA. Også talestyrede portaler med forskellige former for trafikinformation, venter han vil blive udbredt.
Tre udgaver
IBM's taleteknologi ViaVoice findes i dag i tre hovedudgaver, hvoraf de to er klientbaserede og den tredje en serverudgave.
Med den ene klientudgave kan brugeren diktere til en pc og talen omsættes til skrift. Systemet kan også styre pc'en ved, at brugeren taler til den i stedet for at indtaste kommandoer.
I en anden udgave er kernen i systemet krympet, så den kan anvendes i for eksempel lommecomputere, mobiltelefoner eller biler. Systemet har en begrænset lagerkapacitet for antallet af sætninger, der kan lagres, men kapaciteten udvides hastigt, forklarer Roy Band.
Den tredje udgave er serverudgaven, WebSphere Voice Server. Dette system rummer både talegenkendelse og talesyntese, hvor systemet kan forvandle skreven tekst til tale.
Billedtekst:
Roy Band, IBM: - Voice XML har gjort det let at skrive nye applikationer til talestyrede systemer, siger Roy Band, IBM. Han mener, at UMTS-telefoni vil være med til at sætte skub i udviklingen.
Boks:
Forstår nu dansk
IBM's WebSphere voice server V2.0 forstår nu dansk. Systemet, der afvikles på IBM's AIX-servere sammen med IBM's AIX-platform for telefoni, rummer både stemmegenkendelse og talesyntese (tekst til tale) baseret på en såkaldt sætnings-splejsningsteknologi. Teknologien betyder, at indspillede sætninger brydes op i enkelte ord og udtryk. Tekst-til-tale softwaren splejser dem så sammen til syntetisk tale, der findes i både mandlige og kvindelige versioner.