Artikel top billede

Foto: Torben Klint

Stemmestyret iPhone kan føre til en revolution

Hvorfor taste når man kan tale? Googles nye applikation til iPhone springer tasteleddet over, og det kan betyde en revolution indenfor stemmegenkendelse.

Ud af til kan Googles nye iPhone-applikation virke forholdsvis uskyldig og er på sin vis meget lig en masse andre, tilsvarende programmer, som giver brugeren en nogenlunde funktionel talegenkendelse.

Løft telefonen op til øret, og spørg. "Hvor ligger den nærmeste togstation?" Dit spørgsmål sendes straks af sted til en eller flere servere, analyseres af talegenkendelsessoftware, omformes til tekst og et svar returneres.

Indtil videre er det kun muligt på engelsk, nærmere betegnet en "nordamerikansk accent," som det står angivet i programmets indstillinger, men det er næppe nok til at afskrække den gennemsnitlige dansker fra at prøve.

Ikke helt nyt

Ideen om tale- og lydgenkendelse er ikke just splinterny. Google har selv, igennem flere år, tilbudt tjenesten GOOG-411 i USA, hvor man kan ringe op og spørge efter et firma, som der viderestilles til.

Alternativt kan man, med den verbale kommando "text message," instruere tjenesten i at sende svaret som en SMS-besked.

En række tjenester har igennem flere år gjort det muligt at lade mobiltelefonen analysere et stykke musik, og straks fortælle hvem kunstneren er og hvad nummeret hedder. Principielt efter nøjagtigt samme princip som Googles nye program til iPhone.

Telefonsystemer verden over kan modtage verbale kommandoer, og står for en stor del af de indgående opkald i virksomheder, med varierende succes.

Kort sagt er det ikke fordi der ligefrem mangler eksempler på talegenkendelse i praksis, men alligevel er det stadig forbundet med en anseelig usikkerhed, og på trods af, at der på globalt plan er brugt mange milliarder på udviklingen, virker det stadig kun nogenlunde.

Uset kapacitet

Men hvis andre har gjort noget lignende igennem flere år, hvad er så anderledes ved Googles tiltag?

For det første har Google datakraft som stort set ikke er til at matche. Verdens førende søgemaskine kræver en pæn portion processorkraft, og det har Google. Og det er lige netop her den helt afgørende forskel kan ligge.

Det der, for brugeren, virker så enkelt - at søge i Googles arkiver - er en yderst kompliceret affære, og Google bruger enorme ressourcer på at analysere, indeksere og relatere samtlige søgninger, for at kunne give endnu bedre resultater.

Det vil sige, at man hos Google har en rimelig god ide om, hvordan folk søger. Kombineret med GOOG-411-tjenesten, som har været en stor faktor i udviklingen af iPhone-applikationen, har man haft en god ide om, at folk i bund og grund søger verbalt, som de gør på skrift.

Hvad enten man stiller et regulært spørgsmål, eller sparer på høflighederne og bare opremser nøgleord, er Google i stand til at fortolke. Ikke perfekt, endnu, men nogenlunde.

Enorme mængder data

Tager man så de milliarder af analyserede søgninger, som allerede er foretaget i søgemaskinen, og kombinerer dem med den antageligt store mængde som kommer fra iPhone, så har man grundlaget for en enorm datamængde, som der kan arbejdes ud fra. Og det er netop disse data, som kan gøre forskellen.

Google har altså kapaciteten, ressourcerne og data til at udføre et enormt arbejde på kort tid. Føjer man så det faktum til, at Google igennem længere tid har rekrutteret førende stemmegenkendelsesforskere fra hele verden, så begynder det virkelig at ligne noget.

"Præcisionen af Google applikation vil øges markant over de næste tre til seks måneder," siger Raj Reddy, en forsker fra Carnegie Mellon University, som arbejder med kunstig intelligens, til New York Times.

Forretningsmodellen

Applikationen er ganske gratis på iPhone, og Google har allerede meldt ud, at der også vil komme versioner til andre mobiltelefoner. Men hvordan skal Google så tjene penge på det?

Som altid ligger Googles indtjeningsmuligheder i annoncer. "Hvor er den nærmeste togstation," er i realiteten en lokationsbaseret tjeneste, og det betyder et enormt potentiale for annoncepenge.

Dels for annoncørerne mulighed for at skabe kontakt til en potentiel kunde, lige i det øjeblik behovet opstår, og endnu vigtigere, når kunden er tæt på. Værdien af den slags reklame er enorm, og det vil givetvis afspejles i annonceprisen.

Sammensmeltning på tværs af medier

Men en applikation som baseres på stemmestyring kan også få mere vidtrækkende indflydelse.

Forudsat at folk vænner sig til at tale til en tjeneste, via et program som eventuelt er på et konkurrerende firmas telefon, kan Google reelt overtage enheden, da folk erfaringsmæssigt ikke konstant skifter mellem tale og skrift, uden videre.

Og med effektiv, troværdig talegenkendelse, åbner et helt nyt marked sig for Google. Med en tilstrækkelig mængde ressourcer ville man kunne sætte sig for at indeksere eksempelvis samtlige Youtube-videoer, og dermed gøre det muligt at søge på indholdet i video.

Lyder det lidt for vildt? Google har faktisk allerede ført det ud i livet, og er startet med at indeksere politiske videoer fra den amerikanske valgkamp, via tjenesten Google Audio.

Kan det virke?

Ved første møde med Googles bud på denne teknologi, kan man fristes til at tænke, at det da er meget sjovt, men så heller ikke mere.

Spørgsmålet er om det vil fungere i dagligdagen, og reelt kan tilbyde noget som ikke allerede kan lade sig gøre på anden vis. Noget skal drive det frem, hvis det virkelig skal fange an og træde ind på den store manege.

For flere år siden spåede man en fremtid med mobiltelefoner som jævnligt blev mindre. Det skete da også, men på et tidspunkt var det som om, at tendenskurven blev brudt, og telefonerne voksede en smule, for så at stabilisere sig i en nogenlunde standard størrelse.

Denne tendens har givetvis været styret af to faktorer, nemlig skærmen, som skulle være til at læse og se på, og behovet for at kunne skrive tekst, via nogle taster.

Key-less

Men for at bruge iPhone selv som eksempel her, så er det langtfra sikkert, at selv avancerede keyboards kan levere en stabil og trofast service.

Hvad nu hvis man kunne skære taste-delen fra, og i stedet bare tale til sin telefon? Så er der skærmen tilbage, men hvis Apple kan sælge en iPod Shuffle - helt og aldeles uden skærm - er det måske ikke helt utænkeligt, at det også kan lade sig gøre med en telefon?

Tilliden til, at telefonen kan fungere ordentligt, og virkelig forstå hvad der bliver sagt, skal naturligvis være i top. Men konceptet kunne, i teorien, holde.




Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
Højer og Lauritzen ApS
Distributør af pc- og printertilbehør.

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
Bliv klar til AI Act: Det vil påvirke både din udvikling, drift og organisation

Fordelene ved at anvende kunstig intelligens bliver stadig mere udtalte, og både som virksomhed og myndighed er det i stigende grad uholdbart ikke at udforske mulighederne. Men der er også risici forbundet på den nye teknologi, og på dette formiddagsseminar ser vi på, hvordan verdens første regulatoriske kompleks – EUs kommende AI Act – adresserer behovet for en etisk, ansvarlig og kontrolleret anvendelse af AI.

20. august 2024 | Læs mere


Det Digitale Produktpas

Kom med og hør om, hvordan du kommer i gang med at sikre din virksomhed er klar til Det Digitale Produktpas. Vi sætter fokus på, hvordan du bliver klædt på til at få styr og struktur på dine data, samt hvilke krav du skal sætte til dine leverandører og andre i din værdikæde, for at sikre den nødvendige information er tilgængelig.

21. august 2024 | Læs mere


Cyber Security Summit 2024

På Cyber Security Summit får du indsigt i det aktuelle trusselslandskab, overblikket over de nyeste værktøjer og trends indenfor sikkerhedsløsninger, indsigt i de relevante rammeværktøjer og krav samt de bedste løsninger og værktøjer til at sikre effektiv drift og høj compliance.

27. august 2024 | Læs mere