Artikel top billede

Foto: Torben Klint

Stemmestyret iPhone kan føre til en revolution

Hvorfor taste når man kan tale? Googles nye applikation til iPhone springer tasteleddet over, og det kan betyde en revolution indenfor stemmegenkendelse.

Ud af til kan Googles nye iPhone-applikation virke forholdsvis uskyldig og er på sin vis meget lig en masse andre, tilsvarende programmer, som giver brugeren en nogenlunde funktionel talegenkendelse.

Løft telefonen op til øret, og spørg. "Hvor ligger den nærmeste togstation?" Dit spørgsmål sendes straks af sted til en eller flere servere, analyseres af talegenkendelsessoftware, omformes til tekst og et svar returneres.

Indtil videre er det kun muligt på engelsk, nærmere betegnet en "nordamerikansk accent," som det står angivet i programmets indstillinger, men det er næppe nok til at afskrække den gennemsnitlige dansker fra at prøve.

Ikke helt nyt

Ideen om tale- og lydgenkendelse er ikke just splinterny. Google har selv, igennem flere år, tilbudt tjenesten GOOG-411 i USA, hvor man kan ringe op og spørge efter et firma, som der viderestilles til.

Alternativt kan man, med den verbale kommando "text message," instruere tjenesten i at sende svaret som en SMS-besked.

En række tjenester har igennem flere år gjort det muligt at lade mobiltelefonen analysere et stykke musik, og straks fortælle hvem kunstneren er og hvad nummeret hedder. Principielt efter nøjagtigt samme princip som Googles nye program til iPhone.

Telefonsystemer verden over kan modtage verbale kommandoer, og står for en stor del af de indgående opkald i virksomheder, med varierende succes.

Kort sagt er det ikke fordi der ligefrem mangler eksempler på talegenkendelse i praksis, men alligevel er det stadig forbundet med en anseelig usikkerhed, og på trods af, at der på globalt plan er brugt mange milliarder på udviklingen, virker det stadig kun nogenlunde.

Uset kapacitet

Men hvis andre har gjort noget lignende igennem flere år, hvad er så anderledes ved Googles tiltag?

For det første har Google datakraft som stort set ikke er til at matche. Verdens førende søgemaskine kræver en pæn portion processorkraft, og det har Google. Og det er lige netop her den helt afgørende forskel kan ligge.

Det der, for brugeren, virker så enkelt - at søge i Googles arkiver - er en yderst kompliceret affære, og Google bruger enorme ressourcer på at analysere, indeksere og relatere samtlige søgninger, for at kunne give endnu bedre resultater.

Det vil sige, at man hos Google har en rimelig god ide om, hvordan folk søger. Kombineret med GOOG-411-tjenesten, som har været en stor faktor i udviklingen af iPhone-applikationen, har man haft en god ide om, at folk i bund og grund søger verbalt, som de gør på skrift.

Hvad enten man stiller et regulært spørgsmål, eller sparer på høflighederne og bare opremser nøgleord, er Google i stand til at fortolke. Ikke perfekt, endnu, men nogenlunde.

Enorme mængder data

Tager man så de milliarder af analyserede søgninger, som allerede er foretaget i søgemaskinen, og kombinerer dem med den antageligt store mængde som kommer fra iPhone, så har man grundlaget for en enorm datamængde, som der kan arbejdes ud fra. Og det er netop disse data, som kan gøre forskellen.

Google har altså kapaciteten, ressourcerne og data til at udføre et enormt arbejde på kort tid. Føjer man så det faktum til, at Google igennem længere tid har rekrutteret førende stemmegenkendelsesforskere fra hele verden, så begynder det virkelig at ligne noget.

"Præcisionen af Google applikation vil øges markant over de næste tre til seks måneder," siger Raj Reddy, en forsker fra Carnegie Mellon University, som arbejder med kunstig intelligens, til New York Times.

Forretningsmodellen

Applikationen er ganske gratis på iPhone, og Google har allerede meldt ud, at der også vil komme versioner til andre mobiltelefoner. Men hvordan skal Google så tjene penge på det?

Som altid ligger Googles indtjeningsmuligheder i annoncer. "Hvor er den nærmeste togstation," er i realiteten en lokationsbaseret tjeneste, og det betyder et enormt potentiale for annoncepenge.

Dels for annoncørerne mulighed for at skabe kontakt til en potentiel kunde, lige i det øjeblik behovet opstår, og endnu vigtigere, når kunden er tæt på. Værdien af den slags reklame er enorm, og det vil givetvis afspejles i annonceprisen.

Sammensmeltning på tværs af medier

Men en applikation som baseres på stemmestyring kan også få mere vidtrækkende indflydelse.

Forudsat at folk vænner sig til at tale til en tjeneste, via et program som eventuelt er på et konkurrerende firmas telefon, kan Google reelt overtage enheden, da folk erfaringsmæssigt ikke konstant skifter mellem tale og skrift, uden videre.

Og med effektiv, troværdig talegenkendelse, åbner et helt nyt marked sig for Google. Med en tilstrækkelig mængde ressourcer ville man kunne sætte sig for at indeksere eksempelvis samtlige Youtube-videoer, og dermed gøre det muligt at søge på indholdet i video.

Lyder det lidt for vildt? Google har faktisk allerede ført det ud i livet, og er startet med at indeksere politiske videoer fra den amerikanske valgkamp, via tjenesten Google Audio.

Kan det virke?

Ved første møde med Googles bud på denne teknologi, kan man fristes til at tænke, at det da er meget sjovt, men så heller ikke mere.

Spørgsmålet er om det vil fungere i dagligdagen, og reelt kan tilbyde noget som ikke allerede kan lade sig gøre på anden vis. Noget skal drive det frem, hvis det virkelig skal fange an og træde ind på den store manege.

For flere år siden spåede man en fremtid med mobiltelefoner som jævnligt blev mindre. Det skete da også, men på et tidspunkt var det som om, at tendenskurven blev brudt, og telefonerne voksede en smule, for så at stabilisere sig i en nogenlunde standard størrelse.

Denne tendens har givetvis været styret af to faktorer, nemlig skærmen, som skulle være til at læse og se på, og behovet for at kunne skrive tekst, via nogle taster.

Key-less

Men for at bruge iPhone selv som eksempel her, så er det langtfra sikkert, at selv avancerede keyboards kan levere en stabil og trofast service.

Hvad nu hvis man kunne skære taste-delen fra, og i stedet bare tale til sin telefon? Så er der skærmen tilbage, men hvis Apple kan sælge en iPod Shuffle - helt og aldeles uden skærm - er det måske ikke helt utænkeligt, at det også kan lade sig gøre med en telefon?

Tilliden til, at telefonen kan fungere ordentligt, og virkelig forstå hvad der bliver sagt, skal naturligvis være i top. Men konceptet kunne, i teorien, holde.




Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
Ed A/S
Salg af hard- og software.

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
Sådan bruger du aktivt AI til at styrke din cybersikkerhedsindsats

Kan AI styrke din cybersikkerhed og forebygge f.eks. ransomwareangreb? Ja – og endda særdeles effektivt! På denne konference kan du blive klogere på, hvordan du i praksis anvender AI til at styrke dit sikkerhedsniveau – og gøre cyberbeskyttelsen mere fleksibel.

27. november 2024 | Læs mere


Styrk din virksomhed med relevant, pålidelig og ansvarlig AI integration med SAP

Kom og få indsigt i, hvordan du bruger AI til at transformere og effektivisere dine arbejdsgange. Vi kigger nærmere på AI-assistenten Joule, der vil revolutionere måden, brugerne interagere med SAP’s forretningssystemer. Og så får du konkret viden om, hvordan du kommer i gang med at bruge AI til at booste din forretningsudvikling.

03. december 2024 | Læs mere


Fyr op under vækst med dataanalyse, AI og innovation

Hvor langt er den datadrevne virksomhed nået i praksis? Det kan du høre om fra virksomheder, som har foretaget transformationen. Du kommer også til at høre, hvordan de anvender AI i processen, hvilke mål de har nået, hvordan de har høstet gevinsterne og hvilke nyskabelser, der er på vej i horisonten.

04. december 2024 | Læs mere