Elevenlabsuma startup de IA que acabou de criar um Rodada de mega financiamento de US $ 180 milhõestem sido conhecido principalmente por suas proezas de geração de áudio. A empresa deu um passo em outra direção tecnológica, lançando seu primeiro modelo independente de fala para texto chamado Scribe.
A startup, avaliado em US $ 3,3 bilhõesajudou muitas outras empresas a fornecer serviços de fala para texto por meio de sua vasta biblioteca de vozes. No entanto, a empresa agora está procurando entrar na detecção de fala e competir com pessoas como GladiaAssim, SpeechmaticsAssim, AssemblyaiAssim, Deepgrame modelos de sussurros do Openai.
O modelo Scribe do Elevenlabs suporta mais de 99 idiomas no lançamento. A empresa categoriza mais de 25 idiomas em excelente categoria de precisão para o modelo em que a taxa de erro de palavra é inferior a 5%. Esta lista inclui inglês (taxa de precisão reivindicada de 97%), francês, alemão, hindi, indonésio, japonês, kannada, malaiala, polonês, português, espanhol e vietnamita. Outros idiomas são classificados em diferentes categorias com alta (taxa de erro de palavra de 5 a 10%), boa taxa de erro de erro de palavra (10 a 20%) e moderada (25 a 50%).
A empresa disse que o modelo superou o Google Gemini 2.0 Flash e Whisper Large V3 em vários idiomas em testes de referência de voz comuns e comuns.
O Elevenlabs havia desenvolvido o componente de fala para texto para sua plataforma de agentes de conversação de IA, lançada no ano passado. No entanto, esta é a primeira vez A empresa está lançando um modelo de detecção de fala independente. Em uma conversa com o TechCrunch no mês passado, o CEO Mati Staniszewski falou sobre melhorar os modelos de detecção de fala.
“Queremos entender o que está sendo dito por você em uma conversa melhor. Estamos trabalhando em maneiras de nos afastar de gerar apenas conteúdo e compreensão e transcrição da fala ”, disse Staniszewski na época. “Muitas pessoas dizem que a fala para texto é um problema resolvido. Mas para muitos idiomas, é muito ruim. Achamos que podemos criar melhores modelos de detecção de fala, porque temos equipes internas para anotar dados e nos dar um feedback rápido. ”
O modelo também possui diarização de alto-falantes inteligentes para dizer quem está falando, registro de data e hora no nível das palavras para legendas precisas e eventos de som de marcação automática, como risadas de audiência. A startup está fornecendo uma maneira de os clientes transcreverem diretamente o conteúdo de vídeo para adicionar legendas ou legendas em seu estúdio.
Atualmente, o Scribe trabalha apenas com formatos de áudio pré-gravados. A empresa disse que lançará uma versão em tempo real de baixa latência em breve. Isso significa que ainda não é eficaz para atender a transcrições ou anotações de voz.
O Elevenlabs é um escriba de precificação de US $ 0,40 por uma hora de áudio transcrito. Enquanto a taxa é competitiva, Alguns de seus rivais oferecer um preço mais baixo Para transcrições de áudio no momento com alguma diferenciação de recursos.