Googles pondus lægges bag stemme-teknologi

Googles størrelse vil hjælpe i udviklingen af talegenkendelse, mener forsker. Udgangspunktet er 230 millioner ord. Se hvad det kan blive til.

26. april 2010 kl. 09.40

Stephen Lawson

Computerworld News Service: Google udnytter sin cloud-infrastruktur og den kolossale mængde af indtastede søgeforespørgsler til at raffinere sin stemmesøgnings-funktion som en del af en massiv forskningsindsats inden for talegenkendelse.

Google stemmesøgning blev introduceret for omkring 18 måneder siden og gør det muligt for mobilbrugere at søge på nettet ved at tale ind i deres telefoner frem for at indtaste søgeforespørgslen. Funktionen er tilgængelig på iPhone, BlackBerry, Nokia Series 60 og visse Android-modeller.

Nøjagtighed udgør et af de store succeskriterier, så brugerne får brugbare søgeresultater, der gør, at de vender tilbage til tjenesten, forklarer Michael Cohen, der er chef for stemme-teknologi hos Google, i et oplæg torsdag under Mobile Voice Conference i San Francisco.

Virksomheden arbejder på at gøre stemmesøgning til en "gnidningsfri" oplevelse for brugeren, der ubesværet får korrekte søgeresultater. Det har dog været en lang kamp, der har taget årtier, at gøre talegenkendelse nøjagtig nok, og Google lægger sin store vægt bag indsatsen for at løse problemet, fortæller Cohen.

Hunde taler ikke

Googles stemmesøgning er baseret på "sprogmodeller", som er statistiske modeller for hvilke sekvenser af ord, der fremkommer med størst sandsynlighed. En god sprogmodel ved eksempelvis, at det er mere sandsynligt, at en person siger "the dog barked", end at nogen siger "the dog talked".

Google "træner" konstant nye sprogmodeller til sin talegenkendelses-engine, fortæller Cohen. Det gør virksomheden blandt andet ved at udnytte de søgetermer, som brugerne indtaster i Googles søgemaskine. Ud fra 230 millioner ord, der er indtastet i søgeforespørgsler på Google.com, har forskerne samlet de en million mest almindeligt brugte unikke ord i en ordliste til at træne stemme-systemet.

Begge disse tal er arbitrære, og 230 millioner repræsenterer ikke det samlede antal ord, der er indtastet i Googles søgemaskine i nogen given periode, afklarer Cohen.

AskOxford.com fra forlaget bag Oxford English Dictionary, vurderer, at der mindst er 250.000 ord i det engelske sprog; Cohen forklarer, at de en million unikke ord inkluderer flertalsformer og andre former af ordene.

Langt træningsprogram

Det tager 70 "CPU-år" - den mængde arbejde, en CPU kan udføre på et år - at behandle disse 230 millioner ord fra Google.com og optræne en ny sprogmodel, oplyser Michael Cohen. Google optræner konstant nye sprogmodeller som en del af forskningen.

"Der stilles enorme beregningsmæssige krav, da vi hele tiden udvider med mere og mere data og større og større modeller," fortæller stemme-teknologichefen.

"Heldigvis har vi masser af beregningskraft, som vi kan benytte. Der stilles også krav til infrastrukturen, og heldigvis har Google en meget veldesignet software-infrastruktur, så vi kan gøre ting såsom hurtigt at parallelisere noget" ved at køre det på tusindvis af computere samtidigt, forklarer Cohen.

En cloud-infrastruktur giver også andre fordele inden for talegenkendelse, siger han. Google kan hurtigt teste og raffinere sin talegenkendelses-software og udsende nye versioner, mens forbrugerne allerede benytter sig af produktet. Derudover lærer Google af erfaringerne, ved at rigtige brugere benytter sig af funktionen stemmesøgning.

Udover at gøre talegenkendelse lettere at bruge sigter Google efter at gøre teknologien alment tilgængelig. Det var et stort skridt i den retning at inkludere en funktion i mobiltelefonen Nexus One, der giver brugeren mulighed for at afgive tale- i stedet for tasteinput, hver gang tastaturet er synligt på skærmen, fortæller Cohen.

YouTube - nu med undertekster

Talegenkendelse spiller også en stor rolle i Google Voice, der er virksomhedens tjeneste til transskription af talemeddelelser, også kaldet voicemail. Men Googles interesse i stemmeteknologier rækker længere end mobiltelefoni, siger Cohen.

Voice er den største gruppe i Google Research og forskningsresultater fra dette område kan vise sig at være brugbare i mange forskellige områder, fortæller han. Virksomheden vil gerne kunne forstå og levere tale-indhold på nettet på samme måde som med tekstindhold.

Som et skridt i denne retning har Google for nylig tilføjet mulighed for undertekster til YouTube-videoer. I forbindelse med denne funktionalitet er Google også begyndt at tilbyde fremmedsprogede undertekster ved hjælp af tekst-til-tekst-oversættelser af disse undertekster.

Michael Cohen var medstifter af Nuance Communications og har arbejdet med talegenkendelse i 25 år. I løbet af den tid er "teknologien kommet langt, men der er lang vej endnu," siger han.

Også Microsoft udvikler funktionalitet til stemmegenkendelse til sin søgemaskine, Bing.

Oversat af Thomas Bøndergaard