Você pode ter notado o progresso constante e seguro da tecnologia de reconhecimento de voz nos últimos tempos – todas as grandes empresas de tecnologia querem avançar nessa área apenas para melhorar seus assistentes digitais, como Cortana e Siri -, mas a Mozilla quer empurrar mais e mais amplamente, nesta frente com o lançamento de um modelo de reconhecimento de voz de código aberto.

A versão inicial deste mecanismo de Reconhecimento Automático de Voz acabou de ser desencadeada, com base no trabalho realizado pela equipe de Aprendizagem em Máquina da Mozilla. O motor é modelado em papéis “Deep Speech” publicados pela Baidu, que detalham uma rede neural profunda multi-camadas treinável.

A Mozilla diz que seu projeto inicialmente teve como objetivo atingir uma “taxa de erro de palavras” inferior a 10%. No entanto, a empresa diz que a taxa de erro de palavras do motor no conjunto de teste-limpeza da LibriSpeech é agora de 6,5%, atingindo claramente esse objetivo e alcançando perto do Santo Graal de desempenho no nível humano (o que ocorre em torno de 5,8%, de acordo com o Deep Speech 2).

Deu trabalho para a Mozilla

A Mozilla trabalhou arduamente para treinar o modelo de reconhecimento de fala usando “aprendizagem supervisionada” e um enorme conjunto de dados de milhares de horas de áudio rotulado, tirado de todo tipo de fonte, incluindo discursos livres (TED-LIUM e LibriSpeech) e pago (Fisher e Switchboard) corpus.

O novo modelo open source da Mozilla visa revolucionar o reconhecimento de voz

E, claro, a enorme força desse projeto, sua natureza de código aberto, significa que essa tecnologia aprimorada agora está aberta a qualquer pessoa para usar em seus projetos de reconhecimento de fala.

A Microsoft também está fazendo grandes avanços no de reconhecimento de voz, tendo alcançado uma taxa de erro de palavras de 5,1% no benchmark de reconhecimento de fala do Switchboard, conforme anunciado no verão americano passado.

DEIXE UMA RESPOSTA

Please enter your comment!
Please enter your name here