Den første præsentation af ChatGPT 4o's stemmefunktion havde en mistænkelig lighed med skuespilleren Scarlett Johansson.

ChatGPT åbner for svar med realistisk stemme - til udvalgte abonnenter

OpenAI begyndte tirsdag at udrulle ChatGPT's Advanced Voice Mode. Dermed fik nogle at de betalende abonnenter af GPT-4o-versionen adgang til svar med hyper-realistisk lyd.

31. juli 2024 kl. 17.00

Anders Bruun Strategi- og ledelsesredaktør

Omtalen var massiv, da OpenAI i maj præsenterede blandt andet GPT-4o-versionens yderst menneskelignende stemme. Opmærksomheden blev ikke mindre, da stemmen ved navn Sky lød mistænkeligt meget som skuespilleren Scarlett Johansson.

Den amerikanske skuespiller med danske aner på sin fædrende side udtalte, at hun havde afvist mange forespørgsler fra OpenAI-CEO Sam Altman om at benytte hendes stemme. Efter at have set GPT-4o-demonstrationen hyrede hun juridisk hjælp for at få standset brugen af det, hun mente var sin stemme.

Sagen fik en foreløbig udgang, da OpenAI fjernede Sky-stemmen, og i juni lød det fra AI-selskabet, at det ville forsinke præsentationen af sin Advanced Voice Mode for at forbedre sikkerheden i programmet. Blandt andet forsøger AI-selskabet at undgå deep fake-stemmer som den, der medvirkede til at snyde stemmeafgivere i New Hampshire i januar ved at lyde som Joe Biden.

Nu er ventetiden ovre for de udvalgte abonnenter, som har fået den nye stemme-funktion i modellen. Det skriver Techcrunch.

Funktionen skal ikke forveksles med den stemmetilstand, der i øjeblikket er tilgængelig i ChatGPT. Ifølge OpenAI er Advanced Voice Mode anderledes.

ChatGPT's gamle løsning til lyd brugte tre forskellige modeller:

En til at konvertere stemme til tekst.
GPT-4 til at behandle et prompt.
En tredje model til at konvertere ChatGPT's tekst til stemme.

GPT-4o er imidlertid multimodal og i stand til at behandle disse opgaver uden hjælp fra hjælpemodeller, hvilket skulle betyde mindre forsinkelse.

OpenAI hævder også, at GPT-4o kan fornemme følelsesmæssige intonationer i brugernes stemmer - herunder tristhed, spænding eller sang.

Årsagen til den gradvise lancering skulle ifølge ChatGPT være, at selskabet ønsker at teste, hvordan brugerne benytter stemme-funktionen. I løbet af efteråret skulle alle ChatGPT-plus-brugere få funktionen.

De brugere, som nu har fået adgang til modellen, har modtaget en meddelelse i deres app samt en mail med vejledning i at benytte den.

Flere dybdegående Computerworld artikler

Hvem styrer i det offentlige – når ingen styrer?

Hvad handler frisættelse i den offentlige sektor om for ledere og medarbejdere? Det giver en ny antologi mange bud på med bidrag fra forskere, praktikere og ledere.

Kinesisk modangreb: Huawei klar med superchip til at tage kampen op med Nvidia

‘Move fast and break things’: Sam Altman vil vente på AI-katastrofer, før vi får privatlivsregler

Morgen-briefing: Dansk robotselskab skifter ud i ledelsen / Fagforening skal protestere mod salg til Israel / Dansk sikkerhedsfirma slugt i storstilet udenlandsk ekspansion