Omtalen var massiv, da OpenAI i maj præsenterede blandt andet GPT-4o-versionens yderst menneskelignende stemme. Opmærksomheden blev ikke mindre, da stemmen ved navn Sky lød mistænkeligt meget som skuespilleren Scarlett Johansson.
Den amerikanske skuespiller med danske aner på sin fædrende side udtalte, at hun havde afvist mange forespørgsler fra OpenAI-CEO Sam Altman om at benytte hendes stemme. Efter at have set GPT-4o-demonstrationen hyrede hun juridisk hjælp for at få standset brugen af det, hun mente var sin stemme.
Sagen fik en foreløbig udgang, da OpenAI fjernede Sky-stemmen, og i juni lød det fra AI-selskabet, at det ville forsinke præsentationen af sin Advanced Voice Mode for at forbedre sikkerheden i programmet. Blandt andet forsøger AI-selskabet at undgå deep fake-stemmer som den, der medvirkede til at snyde stemmeafgivere i New Hampshire i januar ved at lyde som Joe Biden.
Nu er ventetiden ovre for de udvalgte abonnenter, som har fået den nye stemme-funktion i modellen. Det skriver Techcrunch.
Funktionen skal ikke forveksles med den stemmetilstand, der i øjeblikket er tilgængelig i ChatGPT. Ifølge OpenAI er Advanced Voice Mode anderledes.
ChatGPT's gamle løsning til lyd brugte tre forskellige modeller:
- En til at konvertere stemme til tekst.
- GPT-4 til at behandle et prompt.
- En tredje model til at konvertere ChatGPT's tekst til stemme.
OpenAI hævder også, at GPT-4o kan fornemme følelsesmæssige intonationer i brugernes stemmer - herunder tristhed, spænding eller sang.
Årsagen til den gradvise lancering skulle ifølge ChatGPT være, at selskabet ønsker at teste, hvordan brugerne benytter stemme-funktionen. I løbet af efteråret skulle alle ChatGPT-plus-brugere få funktionen.
De brugere, som nu har fået adgang til modellen, har modtaget en meddelelse i deres app samt en mail med vejledning i at benytte den.