Kunstig tale bliver mere og mere naturlig

Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den Computerworld d. 25. januar 2002.


Selskabet Speech-Ware gør snart den nye version af sin danske talesyntese, der blandt andet omfatter en kvindestemme, alment tilgængelig.

I løbet af de kommende måder vil den nye version 2.0 af den danske talesyntese blive alment tilgængelig. Dermed vil firmaer kunne benytte den i tjenester, der omsætter tekst til tale i såkaldte talerobotter. Udviklingsselskabet Speech-Ware afleverede den nye version af talesyntesen til Videnskabsministeriet, der havde bestilt den, i sidste år i november.
Samtidig frigjorde Speech-Ware sig ved årsskiftet fra TDC, der har fungeret som fødselshjælper, og blev et selvstændigt selskab.
Nu med kvindestemme
Den største nyhed i version 2.0 er, at den hidtidige mandestemme er blevet suppleret med en kvindestemme.
Talesyntesen med mandestemme kom sidste år i maj.
Når versionen med kvindestemme først følger nu, skyldes det, at det er sværere at lave synteser af højere stemmer.
Fremstillingen af en talesyntese forgår i en række faser:
Først skal teksten omsættes til lydskrift. Så laves der en sproglig analyse, hvor det blandt andet bestemmes, hvilken udtale der skal vælges af de mange danske ord, der staves ens. Så forsynes lydskriften med tryk og stød, og prosodien eller tekstens melodi beregnes med tonehøjde og varighed af lyde. Herefter kan syntesen med en tale-plug-in benyttes til at læse højt. De højere kvindestemmer befinder sig på højere frekvenser, hvor lydsvingningerne er kortere: Der er derfor rent fysisk et mindre grundlag at analysere ud fra.
Ud over at have fået kvindestemme er der i den nye version arbejdet med prosodien, hvilket ifølge direktør Lise-Lotte Bjørkholt fra Speech-Ware skulle betyde, at talen får bedre intonation. Desuden er der nu forsøgt indbygget pauser i sætningerne, hvor en person ville trække vejret.
Samtidig kan den nye version forstå en række af de forkortelser, der er mest brugt i SMS-beskeder, og der er taget højde for de mest udbredte stavefejl.
Talesyntesen egner sig ikke til alle former for tekster, understreger Lise-Lotte Bjørkholt.
- I nogle tilfælde vil det være bedre at få en person til at indlæse teksten. Men når der er tale om information, som hele tiden skal opdateres, kan syntesen lette adgangen til dynamisk information, siger hun.
I et bredere perspektiv har formålet med udarbejdelsen af den særegent danske syntese været at hjælpe med at bevare det danske sprog. Havde den ikke eksisteret, kunne det forventes, at folk ville tage de engelsk-baserede synteser i brug, der snart ventes at blive en standard-facilitet i for eksempel Microsofts Word.
Dansk Blindebibliotek har som de første allerede taget version 2.0 i brug.
- Det er i høj grad et spørgsmål om tilvænning og om at sætte realistiske forventninger til at benytte syntetisk tale. Det vil et stykke tid endnu være sådan, at syntetisk tale er èn ting og naturlig tale noget andet. Men når forbeholdene er taget, viser brugen af eksempel handicap-hjælpemidler, at den nye syntese er både mere brugbar og naturlig end forgængeren, siger Lise-Lotte Bjørkholt.
Efter handicap-hjælpemidler ventes de næste store anvendelsesområder at blive situationer, hvor brugerne allerede benytter hænder og øjne, her under bilkørsel.
Fremtidens stemme
På det seneste er Speech-Ware begyndt at arbejde med at indkludere et vindue, der viser et ansigt, som kan bevæge munden til talen. Dette er et projekt selskabet arbejder på i samarbejde med DTU. Endnu bevæger ansigtet dog kun munden trinvis.
I en kommende udgave af talesyntesen vil der være såvel yngre og friskere og ældre og mere autoritive versioner af stemmerne.
På længere sigt ventes syntetisk tale at gå over til at bygge på såkaldt artikulatorisk syntese: Her genereres talelydene i en model af den menneskelige talekanal. Dette er endnu kun teknisk muligt i laboratorier.
Når den nye form for talesyntese kommer, betyder det ikke, at arbejdet med den nuværende syntese vil være spildt: Analyserne af lydenes varigheder i de enkelte ord og kortlæggelsen af ordenes melodi kan danne grundlag for brugen af den nye syntese.

Billedtekst: - Det at lytte til syntetisk tale er i høj grad et spørgsmål om tilvænning og om at sætte realistiske forventninger til at benytte syntetisk tale, siger
Lise-Lotte Bjørkholt, direktør
i Speech-Ware.
Foto: Hans Juhl

Boks: Stilhed/k, k/o, o/p og p/stilhed......
Sådan laver man talesyntese
Speech-Ware talesyntese bygger på sammensætning af difoner: Overgange fra en lyd til en anden.
I praksis får man en person til at læse en mængde vrøvleord op, og herudfra plukker man lyden af overgangen fra et bogstav til et andet.
Når et ord er omsat til lydskrift og har været udsat for en sproglig analyse, dannes det ved at sammensætte de difoner, det består af. Ordet kop dannes således ved at sammensætte overgangene: Stilhed/k, k/o, o/p og p/stilhed.
Herefter skal der korrigeres for varighed samt stød, tryk og melodi.




Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
Højer og Lauritzen ApS
Distributør af pc- og printertilbehør.

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
Industry 4.0 – sådan udnytter du AI og digitalisering til optimering af din produktion.

På denne konference fokuserer på en digitaliseret optimering af processer i produktions- og procesorienterede virksomheder. Herved bliver du f.eks. i stand til at kombinere maskiner med sales forecasting og derved planlægge anvendelsen af produktionsapparat og medarbejderallokering effektivt – samt begrænse materialespild og nedetid ved at optimere produktionsplanlægning og omstilling af produktionsmateriel.

04. september 2024 | Læs mere


Roundtable for sikkerhedsansvarlige: Hvordan opnår man en robust sikkerhedsposition?

For mange virksomheder har Zero Trust og dets principper transformeret traditionelle tilgange til netværkssikkerhed, hvilket har gjort det muligt for organisationer at opnå hidtil usete niveauer af detaljeret kontrol over deres brugere, enheder og netværk - men hvordan implementerer man bedst Zero Trust-arkitekturer i et enterprise set up? Og hvordan muliggør Zero Trust-arkitekturen, at organisationer opnår produktivitetsfordele med AI-værktøjer samtidig med, at de forbliver sikre i lyset af fremvoksende trusler?

18. september 2024 | Læs mere


Nye forretningsmæssige gevinster med Microsoft Dynamics 365

Eksperter fra CGI stiller skarpt på hvordan, du lærer også hvorfor det er vigtigt at have fokus på både processer, teknologi og mennesker - og hvordan du kommer i gang med løbende optimering af forretningsudvikling.

25. september 2024 | Læs mere