Artikel top billede

Googles pondus lægges bag stemme-teknologi

Googles størrelse vil hjælpe i udviklingen af talegenkendelse, mener forsker. Udgangspunktet er 230 millioner ord. Se hvad det kan blive til.

Computerworld News Service: Google udnytter sin cloud-infrastruktur og den kolossale mængde af indtastede søgeforespørgsler til at raffinere sin stemmesøgnings-funktion som en del af en massiv forskningsindsats inden for talegenkendelse.

Google stemmesøgning blev introduceret for omkring 18 måneder siden og gør det muligt for mobilbrugere at søge på nettet ved at tale ind i deres telefoner frem for at indtaste søgeforespørgslen. Funktionen er tilgængelig på iPhone, BlackBerry, Nokia Series 60 og visse Android-modeller.

Nøjagtighed udgør et af de store succeskriterier, så brugerne får brugbare søgeresultater, der gør, at de vender tilbage til tjenesten, forklarer Michael Cohen, der er chef for stemme-teknologi hos Google, i et oplæg torsdag under Mobile Voice Conference i San Francisco.

Virksomheden arbejder på at gøre stemmesøgning til en "gnidningsfri" oplevelse for brugeren, der ubesværet får korrekte søgeresultater. Det har dog været en lang kamp, der har taget årtier, at gøre talegenkendelse nøjagtig nok, og Google lægger sin store vægt bag indsatsen for at løse problemet, fortæller Cohen.

Hunde taler ikke

Googles stemmesøgning er baseret på "sprogmodeller", som er statistiske modeller for hvilke sekvenser af ord, der fremkommer med størst sandsynlighed. En god sprogmodel ved eksempelvis, at det er mere sandsynligt, at en person siger "the dog barked", end at nogen siger "the dog talked".

Google "træner" konstant nye sprogmodeller til sin talegenkendelses-engine, fortæller Cohen. Det gør virksomheden blandt andet ved at udnytte de søgetermer, som brugerne indtaster i Googles søgemaskine. Ud fra 230 millioner ord, der er indtastet i søgeforespørgsler på Google.com, har forskerne samlet de en million mest almindeligt brugte unikke ord i en ordliste til at træne stemme-systemet.

Begge disse tal er arbitrære, og 230 millioner repræsenterer ikke det samlede antal ord, der er indtastet i Googles søgemaskine i nogen given periode, afklarer Cohen.

AskOxford.com fra forlaget bag Oxford English Dictionary, vurderer, at der mindst er 250.000 ord i det engelske sprog; Cohen forklarer, at de en million unikke ord inkluderer flertalsformer og andre former af ordene.

Langt træningsprogram

Det tager 70 "CPU-år" - den mængde arbejde, en CPU kan udføre på et år - at behandle disse 230 millioner ord fra Google.com og optræne en ny sprogmodel, oplyser Michael Cohen. Google optræner konstant nye sprogmodeller som en del af forskningen.

"Der stilles enorme beregningsmæssige krav, da vi hele tiden udvider med mere og mere data og større og større modeller," fortæller stemme-teknologichefen.

"Heldigvis har vi masser af beregningskraft, som vi kan benytte. Der stilles også krav til infrastrukturen, og heldigvis har Google en meget veldesignet software-infrastruktur, så vi kan gøre ting såsom hurtigt at parallelisere noget" ved at køre det på tusindvis af computere samtidigt, forklarer Cohen.

En cloud-infrastruktur giver også andre fordele inden for talegenkendelse, siger han. Google kan hurtigt teste og raffinere sin talegenkendelses-software og udsende nye versioner, mens forbrugerne allerede benytter sig af produktet. Derudover lærer Google af erfaringerne, ved at rigtige brugere benytter sig af funktionen stemmesøgning.

Udover at gøre talegenkendelse lettere at bruge sigter Google efter at gøre teknologien alment tilgængelig. Det var et stort skridt i den retning at inkludere en funktion i mobiltelefonen Nexus One, der giver brugeren mulighed for at afgive tale- i stedet for tasteinput, hver gang tastaturet er synligt på skærmen, fortæller Cohen.

YouTube - nu med undertekster

Talegenkendelse spiller også en stor rolle i Google Voice, der er virksomhedens tjeneste til transskription af talemeddelelser, også kaldet voicemail. Men Googles interesse i stemmeteknologier rækker længere end mobiltelefoni, siger Cohen.

Voice er den største gruppe i Google Research og forskningsresultater fra dette område kan vise sig at være brugbare i mange forskellige områder, fortæller han. Virksomheden vil gerne kunne forstå og levere tale-indhold på nettet på samme måde som med tekstindhold.

Som et skridt i denne retning har Google for nylig tilføjet mulighed for undertekster til YouTube-videoer. I forbindelse med denne funktionalitet er Google også begyndt at tilbyde fremmedsprogede undertekster ved hjælp af tekst-til-tekst-oversættelser af disse undertekster.

Michael Cohen var medstifter af Nuance Communications og har arbejdet med talegenkendelse i 25 år. I løbet af den tid er "teknologien kommet langt, men der er lang vej endnu," siger han.

Også Microsoft udvikler funktionalitet til stemmegenkendelse til sin søgemaskine, Bing.

Oversat af Thomas Bøndergaard




Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
EG Danmark A/S
Udvikling, salg, implementering og support af software og it-løsninger til ERP, CRM, BA, BI, e-handel og portaler. Infrastrukturløsninger og hardware. Fokus på brancheløsninger.

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
Sådan bruger du aktivt AI til at styrke din cybersikkerhedsindsats

Kan AI styrke din cybersikkerhed og forebygge f.eks. ransomwareangreb? Ja – og endda særdeles effektivt! På denne konference kan du blive klogere på, hvordan du i praksis anvender AI til at styrke dit sikkerhedsniveau – og gøre cyberbeskyttelsen mere fleksibel.

27. november 2024 | Læs mere


Styrk din virksomhed med relevant, pålidelig og ansvarlig AI integration med SAP

Kom og få indsigt i, hvordan du bruger AI til at transformere og effektivisere dine arbejdsgange. Vi kigger nærmere på AI-assistenten Joule, der vil revolutionere måden, brugerne interagere med SAP’s forretningssystemer. Og så får du konkret viden om, hvordan du kommer i gang med at bruge AI til at booste din forretningsudvikling.

03. december 2024 | Læs mere


Fyr op under vækst med dataanalyse, AI og innovation

Hvor langt er den datadrevne virksomhed nået i praksis? Det kan du høre om fra virksomheder, som har foretaget transformationen. Du kommer også til at høre, hvordan de anvender AI i processen, hvilke mål de har nået, hvordan de har høstet gevinsterne og hvilke nyskabelser, der er på vej i horisonten.

04. december 2024 | Læs mere