Incrível ou assustador? OpenAI pode clonar voz com apenas 15s de áudio

Sabryna Esmeraldo
Sabryna Esmeraldo

Responsável por populares ferramenta de Inteligência Artificial (IA), como o ChatGPT e o DALL-E, a OpenAI surpreendeu a revelar o tempo necessário para que sua tecnologia faça um clone perfeito da voz de alguém: apenas 15 segundos de áudio.

Tecnologia de clonagem de voz poderá ser usada em vários setores

Voice engine openai
Imagem: captura de tela / OpenAI

No último dia 29, a OpenAI compartilhou, em seu site oficial, resultados preliminares de uma prévia em pequena escala de um modelo chamado Voice Engine. A tecnologia utiliza texto e uma única amostra de áudio de 15 segundos para gerar uma fala que a empresa descreveu como "som natural que se assemelha muito ao locutor original".

"É notável que um modelo pequeno com uma única amostra de 15 segundos pode criar vozes emotivas e realistas", afirmou a empresa na publicação.

De acordo com a OpenAI, o Voice Engine foi desenvolvido em 2022, já tendo sido usado para o ChatGPT Voice, por exemplo. No final do ano passado, a gigante de tecnologia realizou testes para compreender melhor as utilizações potenciais do Voice Engine. De forma privada, com um pequeno grupo de parceiros de confiança, os testes mostraram que a tecnologia pode ter aplicações diversas.

Livox
Imagem: captura de tela / Livox

Algumas das aplicações encontradas pela OpenAI foram:

  • Assistência de leitura: em parceria com a OpenAI, a empresa de tecnologia educacional Age of Learning gerou conteúdo de narração pré-roteirizado para fornecer assistência de leitura para não leitores e crianças por meio de vozes emotivas e de som natural. Além de alcançar um público mais amplo, a empresa pôde criar respostas personalizadas em tempo real para interagir com os alunos.
  • Tradução de conteúdo: vídeos, podcasts, avatares de IA personalizados e vários outros conteúdos com áudio podem ser traduzidos mantendo o tom de voz do narrador original e até mesmo o seu sotaque.
  • Melhorar serviços essenciais em ambientes remotos: a Dimagi, parceira da OpenAI, criou ferramentas para que seus agentes comunitários de saúde possam prestar uma variedade de serviços essenciais. Para ampliar o alcance a comunidades globais, a empresa utilizou o Voice Engine e o GPT-4 para fornecer feedback interativo na língua principal de cada trabalhador.
  • Auxílio para pessoas com deficiência: o Livox, um aplicativo de comunicação alternativa de IA que permite a comunicação de pessoas com deficiência, usou o Voice Engine para oferecer às pessoas vozes não-verbais, únicas e não robóticas, em vários idiomas.
  • Ajudar os pacientes a recuperar a voz: O Norman Prince Neurosciences Institute da Lifespan, um sistema de saúde sem fins lucrativos, está testando um programa que oferece Voice Engine para indivíduos com etiologias oncológicas ou neurológicas para deficiência de fala. Em um dos testes, a organização conseguiu restaurar a voz de uma jovem paciente que perdeu a fala fluente devido a um tumor cerebral vascular, usando o áudio de um vídeo gravado para um projeto de escola.

A OpenAi disponibilizou exemplos de vozes sintéticas criadas para as situações listadas acima em sua página oficial.

OpenAI adota abordagem cautelosa na divulgação

Ciente do potencial de uso indevido de voz sintética, a OpenAI afirmou estar adotando uma abordagem cautelosa e informada para uma divulgação mais ampla do Voice Engine. A empresa disse ter a expectativa de iniciar um diálogo sobre a utilização responsável de vozes sintéticas e sobre como a sociedade pode adaptar-se a estas novas capacidades.

"Com base nestas conversas e nos resultados destes testes em pequena escala, tomaremos uma decisão mais informada sobre se e como implementar esta tecnologia em escala. [...] Reconhecemos que gerar um discurso que se assemelhe às vozes das pessoas acarreta sérios riscos", declarou a OpenAI.

A empresa explicou que está conversando com parceiros dos Estados Unidos e internacionais do governo, mídia, entretenimento, educação, sociedade civil e outros para garantir a segurança para implantação dos serviços do Voice Engine.

"Os parceiros que testam o Voice Engine hoje concordaram com nossas políticas de uso , que proíbem a representação de outro indivíduo ou organização sem consentimento ou direito legal. Além disso, nossos termos com esses parceiros exigem consentimento explícito e informado do orador original e não permitimos que os desenvolvedores criem formas para que usuários individuais criem suas próprias vozes. Os parceiros também devem divulgar claramente ao seu público que as vozes que ouvem são geradas por IA. Por fim, implementamos um conjunto de medidas de segurança, incluindo marca d'água para rastrear a origem de qualquer áudio gerado pelo Voice Engine, bem como monitoramento proativo de como ele está sendo utilizado", detalhou a OpenAI.

FIQUE POR DENTRO!

Sabryna Esmeraldo
Sabryna Esmeraldo
Sabryna trabalha com comunicação há mais de dez anos e especializou-se a produzir conteúdos e tutoriais sobre aplicações e tecnologia. Consumidora ávida de streamings e redes sociais, adora descobrir as novidades deste mundo.
recomenda: