Elevenlabs está lançando seu próprio modelo de fala para texto

Elevenlabsuma startup de IA que acabou de criar um Rodada de mega financiamento de US $ 180 milhõestem sido conhecido principalmente por suas proezas de geração de áudio. A empresa deu um passo em outra direção tecnológica, lançando seu primeiro modelo independente de fala para texto chamado Scribe.

A startup, avaliado em US $ 3,3 bilhõesajudou muitas outras empresas a fornecer serviços de fala para texto por meio de sua vasta biblioteca de vozes. No entanto, a empresa agora está procurando entrar na detecção de fala e competir com pessoas como GladiaAssim, SpeechmaticsAssim, AssemblyaiAssim, Deepgrame modelos de sussurros do Openai.

O modelo Scribe do Elevenlabs suporta mais de 99 idiomas no lançamento. A empresa categoriza mais de 25 idiomas em excelente categoria de precisão para o modelo em que a taxa de erro de palavra é inferior a 5%. Esta lista inclui inglês (taxa de precisão reivindicada de 97%), francês, alemão, hindi, indonésio, japonês, kannada, malaiala, polonês, português, espanhol e vietnamita. Outros idiomas são classificados em diferentes categorias com alta (taxa de erro de palavra de 5 a 10%), boa taxa de erro de erro de palavra (10 a 20%) e moderada (25 a 50%).

A empresa disse que o modelo superou o Google Gemini 2.0 Flash e Whisper Large V3 em vários idiomas em testes de referência de voz comuns e comuns.

O Elevenlabs havia desenvolvido o componente de fala para texto para sua plataforma de agentes de conversação de IA, lançada no ano passado. No entanto, esta é a primeira vez A empresa está lançando um modelo de detecção de fala independente. Em uma conversa com o TechCrunch no mês passado, o CEO Mati Staniszewski falou sobre melhorar os modelos de detecção de fala.

“Queremos entender o que está sendo dito por você em uma conversa melhor. Estamos trabalhando em maneiras de nos afastar de gerar apenas conteúdo e compreensão e transcrição da fala ”, disse Staniszewski na época. “Muitas pessoas dizem que a fala para texto é um problema resolvido. Mas para muitos idiomas, é muito ruim. Achamos que podemos criar melhores modelos de detecção de fala, porque temos equipes internas para anotar dados e nos dar um feedback rápido. ”

O modelo também possui diarização de alto-falantes inteligentes para dizer quem está falando, registro de data e hora no nível das palavras para legendas precisas e eventos de som de marcação automática, como risadas de audiência. A startup está fornecendo uma maneira de os clientes transcreverem diretamente o conteúdo de vídeo para adicionar legendas ou legendas em seu estúdio.

Atualmente, o Scribe trabalha apenas com formatos de áudio pré-gravados. A empresa disse que lançará uma versão em tempo real de baixa latência em breve. Isso significa que ainda não é eficaz para atender a transcrições ou anotações de voz.

O Elevenlabs é um escriba de precificação de US $ 0,40 por uma hora de áudio transcrito. Enquanto a taxa é competitiva, Alguns de seus rivais oferecer um preço mais baixo Para transcrições de áudio no momento com alguma diferenciação de recursos.

Elevenlabs está lançando seu próprio modelo de fala para texto

Comments

Deixe um comentário Cancelar resposta