Amazon revela um novo modelo de voz da AI, Nova Sonic

Amazon revela um novo modelo de voz da AI, Nova Sonic

Na terça-feira, a Amazon estreou um novo modelo generativo de IA, Nova Sonic, capaz de processar a voz nativamente e gerar discursos com som natural. A Amazon afirma que o desempenho do Sonic é competitivo com modelos de voz de fronteira do OpenAi e Google em benchmarks de velocidade de medição, reconhecimento de fala e qualidade de conversação.

Nova Sonic é a resposta da Amazon para modelos de voz mais recentes, como o modelo de alimentação Modo de voz de ChatGptque parecem mais naturais de falar do que os modelos mais rígidos dos primeiros dias da Amazon Alexa. Os recentes avanços tecnológicos fizeram modelos herdados e os assistentes digitais que sustentam, como Alexa e Siri da Apple, parecem incrivelmente empolgados em comparação.

A Nova Sonic está disponível na Bedrock, a plataforma de desenvolvedores da Amazon para a construção de aplicativos de IA corporativa, por meio de uma nova API de streaming bidirecional. Em um comunicado de imprensa, a Amazon chamou a Nova Sonic “The mais econômica” AI Voice Model do mercado e cerca de 80% mais barato que o GPT-4O da OpenAI.

Componentes de Nova Sonic já estão alimentando Alexa+, assistente de voz digital atualizada da Amazonde acordo com a Amazon SVP e o cientista principal de Agi Rohit Prasad.

Em uma entrevista, Prasad disse ao TechCrunch que a Nova Sonic se baseia na experiência da Amazon em “grandes sistemas de orquestração”, o andaime técnico que compõe o Alexa. Comparado aos modelos rivais de voz da AI, o Nova Sonic se destaca no roteamento de solicitações de usuário para diferentes APIs, disse Prasad. Esse recurso ajuda a Nova Sonic a “conhecer” quando precisa buscar informações em tempo real da Internet, analisar uma fonte de dados proprietária ou agir em um aplicativo externo-e usar a ferramenta apropriada para fazê-lo.

Durante um diálogo de duas vias, o Nova Sonic espera para falar “no momento apropriado”, levando em consideração a pausa e interrupções de um orador, diz a Amazon. Ele também gera uma transcrição de texto para o discurso do usuário, que os desenvolvedores podem usar para vários aplicativos.

O Nova Sonic é menos propenso a erros de reconhecimento de fala do que outros modelos de voz da IA, de acordo com Prasad, o que significa que o modelo é relativamente bom em entender a intenção de um usuário, mesmo que eles murmurem, erros de ortografia ou estejam em um ambiente barulhento. Em uma referência que media o reconhecimento de fala entre idiomas e dialetos, a biblioteca multilíngue, a Amazon diz que a Nova Sonic alcançou uma taxa de erro de palavra (WER) de apenas 4,2% quando calculada a média em inglês, francês, italiano, alemão e espanhol. Isso significa que aproximadamente quatro em cada 100 palavras do modelo diferiam de uma transcrição humana nessas línguas.

Em outro benchmark medindo interações altas com vários participantes, interação multi -partidária aumentada, a Amazon diz que Nova Sonic foi 46,7% mais precisa em termos de WER do que GPT-4O-Transcribe do Openai modelo. A Nova Sonic também tem velocidade líder do setor, com uma latência percebida média de 1,09 segundos, de acordo com a Amazon. Isso o torna mais rápido que o modelo GPT-4O que alimenta a API em tempo real do OpenAI, que responde em 1,18 segundos, por benchmarking por análise artificial.

Prasad diz que Nova Sonic faz parte da estratégia mais ampla da Amazon para construir a AGI (Inteligência Geral Artificial), que a empresa define como “sistemas de IA que podem fazer qualquer coisa que um humano possa fazer em um computador”. No futuro, Prasad diz que a Amazon planeja lançar mais modelos de IA que podem entender diferentes modalidades, incluindo imagem, vídeo e voz, além de “outros dados sensoriais relevantes se você trazer as coisas para o mundo físico”.

A Divisão AGI da Amazon, que Prasad supervisiona, parece estar desempenhando um papel maior na estratégia de produtos da empresa nos dias de hoje. Na semana passada, Amazon lançou uma prévia da Lei Novaum modelo de IA que usa o navegador que parece estar alimentando elementos do Alexa+ e Recurso de compra para mim da Amazon. Começando com Nova Sonic, Prasad diz que a empresa quer oferecer mais de seus modelos internos de IA para os desenvolvedores construirem.

Comments

No comments yet. Why don’t you start the discussion?

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *