Em foco

Google Cloud disponibiliza ferramenta que converte texto em voz para todos os clientes

No total, a Text-to-Speech agora oferece 56 vozes em 14 idiomas e variantes, incluindo português, inglês e espanhol.

Data: 07.09.2018

Google Cloud disponibiliza ferramenta que converte texto em voz para todos os clientes

O Google Cloud anunciou recentemente a disponibilidade geral da ferramenta de conversão de texto para voz Text-to-Speech, que foi disponibilizada ao público inicialmente há alguns meses.


Entre outras coisas, a solução ganhou 17 novas vozes, incluindo português, inglês (EUA) e espanhol, que permitem a criação de aplicativos em idiomas variados, como anunciado no evento Cloud Next’ 18, em julho.


No total, a API agora oferece 56 vozes em 14 idiomas e variantes, sendo 30 delas padrão e 26 delas WaveNet (produto da DeepMind), capazes de imitar vozes humanas e sons naturais, o que permite uma melhor experiência aos usuários.


Audio Profiles


O Google Cloud também revelou que o recurso Audio Profiles agora também está disponível. Com a novidade, o usuário pode otimizar a reprodução dos áudios Text-to-Speech nos diferentes tipos de equipamentos, como fones de ouvido, alto-falantes e linhas telefônicas.


“Por exemplo, se o áudio que o seu aplicativo produz é ouvido principalmente em fones de ouvido, você pode criar uma voz sintética a partir da API Cloud Text-to-Speech que seja otimizada especificamente para fones de ouvido”, explica o Google em um post no seu blog sobre as novidades.


Novas funções do Speech-to-Text


Além disso, o Google também anunciou novas atualizações beta para o serviço que transforma voz em texto Speech-to-Text, incluindo reconhecimento multicanal, diarização de alto-falante e detecção automática de idiomas, todas anunciadas durante o Google Cloud Next’ 18.


Entre outras coisas, essas funções possibilitam a transcrição de vários canais de áudio com identificação de vozes, de modo a registrar quais palavras foram ditas por quem.


E nos casos em que as amostras de áudio que não são separadas em canais, como em uma palestra, por exemplo, o Google disponibiliza a chamada diarização. Para usá-la, basta inserir o número de pessoas falantes como parâmetro à API e, por meio de aprendizagem de máquina (Machine Learning), a ferramenta elabora uma categoria de cada palavra com um número e, na transcrição, consegue identificar o falante de maneira assertiva.


Fonte: IDGNow!



Voltar