Um ano depois, o OpenAI ainda não lançou sua ferramenta de clonagem de voz

No final de março passado, o Openai anunciou uma “prévia em escala de pequena escala” de um serviço de IA, Motor de vozque a empresa alegou que poderia clonar a voz de uma pessoa com apenas 15 segundos de fala. Aproximadamente um ano depois, a ferramenta permanece em pré -visualização e o OpenAI não deu nenhuma indicação sobre quando pode ser lançada – ou se será lançado.

A relutância da empresa em lançar o serviço pode apontar amplamente para os temores de uso indevido, mas também pode refletir um esforço para evitar convidar o escrutínio regulatório. Openai tem historicamente foi acusado de priorizar “produtos brilhantes” à custa da segurança e de lançamentos apressados para vencer as empresas rivais ao mercado.

Em um comunicado, um porta -voz do Openai disse ao TechCrunch que a empresa continua testando mecanismo de voz com um conjunto limitado de “parceiros confiáveis”.

“(Estamos) aprendendo com a forma como (nossos parceiros) usando a tecnologia para que possamos melhorar a utilidade e a segurança do modelo”, disse o porta -voz. “Ficamos empolgados em ver as diferentes maneiras pelas quais está sendo usado, desde terapia da fala, aprendizado de idiomas, suporte ao cliente, personagens de videogame e avatares da AI”.

Empurrado para trás

Motor de voz, que alimenta as vozes disponíveis na API de texto em fala do OpenAi, bem como no ChatGPT’s Modo de vozgera discurso que parece de perto que se assemelha ao alto-falante original. A ferramenta converte caracteres escritos em fala, limitados apenas por certos corrimãos em conteúdo. Mas estava sujeito a atrasos e mudanças nas janelas de liberação desde o início.

Como o Openai explicou em um junho de 2024 Postagem do blogo modelo do motor de voz aprende a prever os sons mais prováveis que um alto -falante fará com uma determinada transcrição de texto, levando em consideração diferentes vozes, sotaques e estilos de fala. Depois disso, o modelo pode gerar não apenas versões faladas de texto, mas também “enunciados falados” que refletem como diferentes tipos de alto -falantes leriam o texto em voz alta.

O Openai pretendia inicialmente trazer o mecanismo de voz, originalmente chamado de Vozes Custom, para sua API em 7 de março de 2024, de acordo com um projeto de postagem de blog visto pela TechCrunch. O plano era dar a um grupo de até 100 “desenvolvedores confiáveis” acesso antes de uma estréia mais ampla, com prioridade concedida a aplicativos de criação de desenvolvedores que forneceram um “benefício social” ou mostraram usos “inovadores e responsáveis” da tecnologia. Openai tinha até marca registrada E o preço: US $ 15 por milhão de caracteres para vozes “padrão” e US $ 30 por milhão de caracteres para vozes de “qualidade HD”.

Então, na décima primeira hora, a empresa adiou o anúncio. O Openai acabou revelando o motor de voz algumas semanas depois, sem uma opção de inscrição. O acesso à ferramenta permaneceria limitado a uma coorte de cerca de 10 desenvolvedores com os quais a empresa começou a trabalhar no final de 2023, disse o Openai.

“Esperamos iniciar um diálogo sobre a implantação responsável de vozes sintéticas e como a sociedade pode se adaptar a esses novos recursos”, Openai escreveu na postagem do blog do anúncio do Voice Engine No final de março de 2024. “Com base nessas conversas e nos resultados desses testes em pequena escala, tomaremos uma decisão mais informada sobre se e como implantar essa tecnologia em escala”.

Long em andamento

O mecanismo de voz está em andamento desde 2022, de acordo com o Openai. A empresa reivindicações Ele demonstrou a ferramenta para “os formuladores de políticas globais nos níveis mais altos” no verão de 2023 para mostrar seu potencial – e riscos.

Vários parceiros têm acesso ao mecanismo de voz hoje, incluindo a startup Livox, que está construindo dispositivos que permitem que as pessoas com deficiência se comuniquem mais naturalmente. O CEO Carlos Pereira disse ao TechCrunch, enquanto LiVox finalmente não conseguiu transformar o mecanismo de voz em um produto devido ao requisito on -line da ferramenta (muitos dos clientes da Livox não têm internet), ele achou que a tecnologia era “realmente impressionante”.

“A qualidade da voz e a possibilidade de ter as vozes falando em diferentes idiomas são únicas – especialmente para pessoas com deficiência, nossos clientes”, disse Pereira ao TechCrunch por e -mail. “É realmente a ferramenta mais impressionante e fácil de usar (ferramenta para) criar vozes que eu já vi (…) esperamos que o Openai desenvolva uma versão offline em breve”.

Pereira diz que não recebeu orientação do OpenAI sobre um possível lançamento de mecanismo de voz, nem viu nenhum sinal de que a empresa planeja começar a cobrar pelo serviço. Até agora, o Livox não teve que pagar por seu uso.

No post acima mencionado em junho de 2024, o Openai deu a entender que uma de suas considerações no atraso do mecanismo de voz era o potencial de abuso durante o ciclo eleitoral dos EUA no ano passado. Informado por discussões com as partes interessadas, o Voice Engine possui várias medidas de segurança mitigatória, incluindo a marca d’água para rastrear a proveniência do áudio gerado.

Os desenvolvedores devem obter “consentimento explícito” do alto-falante original antes de usar o mecanismo de voz, de acordo com o Openai, e devem fazer “divulgações claras” ao seu público de que as vozes são geradas pela IA. A empresa não disse como está aplicando essas políticas, no entanto. Fazer isso em escala pode ser imensamente desafiador, mesmo para uma empresa com os recursos da OpenAI.

Em suas postagens no blog, o OpenAI também implicava que esperava construir uma “experiência de autenticação por voz” para verificar os alto-falantes e uma lista de “proibições” que impede a criação de vozes que soam muito semelhantes a figuras proeminentes. Ambos são projetos tecnologicamente ambiciosos, e errá -los refletiria mal em uma empresa que muitas vezes foi acusada de Iniciativas de segurança marginal.

A filtragem e a verificação eficaz e a verificação de ID estão rapidamente se tornando requisitos de linha de base para lançamentos de tecnologia de clonagem de voz responsáveis. A clonagem de voz da AI foi o terceiro golpe de crescimento mais rápido de 2024, De acordo com uma fonte. Isso é levado a fraude e cheques de segurança bancária Ser ignorado como leis de privacidade e direitos autorais lutam para acompanhar. Atores maliciosos usaram a clonagem de voz para criar incendiários deepfakes de celebridades e políticose esses deepfakes têm espalhe como fogo através da mídia social.

O Openai poderia liberar o motor de voz na próxima semana – ou nunca. A empresa disse repetidamente que está pesando, mantendo o serviço pequeno em escopo. Mas uma coisa é clara: por razões ópticas, razões de segurança ou ambos, a prévia limitada do mecanismo de voz se tornou uma das mais longas da história do Openai.

Um ano depois, o OpenAI ainda não lançou sua ferramenta de clonagem de voz

Empurrado para trás

Long em andamento

Comments

Deixe um comentário Cancelar resposta