O podcastle da plataforma de podcasting lança um modelo de texto em fala com mais de 450 vozes da IA

O podcastle da plataforma de podcasting lança um modelo de texto em fala com mais de 450 vozes da IA

Podcast Recording and Editing Platform Podcastle agora está se juntando a outras empresas na corrida de texto em fala, alimentada por IA, lançando seu próprio modelo de IA chamado ASYNCFLOW V1.0. Também estará disponível uma API para desenvolvedores, permitindo que eles integrem diretamente o modelo de texto em fala em seus aplicativos.

Graças ao novo modelo, a empresa pode oferecer mais de 450 vozes de IA que podem narrar seu texto. A startup disse que desenvolveu a tecnologia e o modelo de tal maneira que seus custos de treinamento e inferência são baixos, dando uma vantagem contra os concorrentes.

Com a mudança, o Podcastle se junta a várias startups, incluindo Elevenlabs, Spealify e Wellsaid, que desenvolveram modelos de tecnologia e IA para converter qualquer tipo de texto em um clipe de voz narrado pela IA. Essa tecnologia abrange casos como marketing, propaganda, criação de conteúdo, educação e treinamento corporativo.

O fundador do Podcastle, Arto Yeritsyan, disse ao TechCrunch que a empresa sempre quis criar um modelo de texto em fala, mas o custo dos requisitos de treinamento e dados para isso era muito alto.

“Queríamos criar um modelo robusto de texto em fala desde a nossa criação. No entanto, os custos do desenvolvimento foram muito altos. Graças aos grandes desenvolvimentos recentes de modelos de idiomas, conseguimos alcançar um avanço no ano passado para chegar a um local onde poderíamos construir um modelo de voz de alta qualidade sem precisar de uma tonelada de dados ”, disse Yeritsyan.

A empresa também foi auxiliada em seus esforços por seu Captação de fundos da série A de US $ 13,5 milhões no ano passado.

Yeritsyan disse que, embora o Podcastle cobre cerca de US $ 40 por 500 minutos de conversão de texto em fala, o Elevenlabs cobra US $ 99 pelo mesmo.

O recurso de clonagem de voz do Podcastle também está recebendo uma atualização, para criar um processo mais rápido para o treinamento.

Anteriormente, o processo de treinamento envolveu a leitura de cerca de 70 frases diferentes. Agora, ele precisa apenas de alguns segundos de gravação de você para criar um clone da sua voz. O novo processo também usado Magic Dust AI do Podcastle, que foi lançado no ano passado, para melhorar a qualidade de gravação de áudio.

Créditos da imagem: Podcastle

Em nossos testes, a voz criada com o novo processo parecia um pouco robótica, embora imitasse nosso tom. A empresa disse que, com o tempo, melhorará o recurso. Além disso, você pode treinar diferentes amostras da sua voz para obter resultados diferentes.

O Podcastle disse que, além dos custos, ter ferramentas para áudio, vídeo, podcasts e narração movida a IA em um site reprojetado dará uma vantagem sobre os concorrentes. Yeritsyan disse que, embora a maioria dos usuários use o Podcastle para trabalhar com conteúdo de áudio, o vídeo também está alcançando.

Comments

No comments yet. Why don’t you start the discussion?

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *