Sistema do Google consegue isolar uma única voz em uma multidão

  1. Home
  2. /
  3. Noticias
  4. /
  5. Tecnologia
  6. /
  7. Sistema do Google consegue...

Essa é uma tarefa que é razoavelmente fácil para o cérebro humano. Mesmo com outras pessoas falando uma sobre as outras, não é um problema muito grande você se focar em uma única voz, bastando apenas um pouco de concentração. No entanto, os computadores sempre estiveram longe de repetir o feito; se você colocar duas pessoas falando em um mesmo canal de áudio (gravando as duas ao mesmo tempo em um microfone, por exemplo), é praticamente impossível separar as vozes. Ou, pelo menos, era.

A pesquisa do Google deu origem a uma inteligência artificial que é capaz de separar uma faixa de áudio com duas pessoas falando simultaneamente em duas faixas distintas, o que permite silenciar uma delas para deixar apenas a outra falando e vice-versa. Você pode conferir no exemplo abaixo, com dois comediantes se apresentando ao mesmo tempo, criando uma cacofonia quase impossível de entender sem um alto grau de concentração.

O recurso funciona, no entanto, apenas com vídeo, porque a máquina foi treinada para associar voz a movimentos faciais, analisando também as frequências da voz para determinar qual das pessoas no vídeo está falando o quê. A partir daí, é possível isolar as vozes de acordo com o rosto de cada pessoa. Veja outro exemplo:

Existem alguns obstáculos para a tecnologia. O sistema funciona bem com frequências de voz bem distintas, mas pode se confundir se as vozes forem mais parecidas. O Google chegou a divulgar um vídeo no qual mistura dois discursos do CEO Sundar Pichai falando para mostrar que o sistema funciona mesmo com vozes similares, mas infelizmente o vídeo foi removido. O site Android Police, no entanto, afirma que os resultados eram impressionantes, ainda que fosse possível notar um nível maior de irregularidades.

Para que vai servir essa tecnologia? Um impacto interessante seria para legendas no YouTube. O serviço de vídeos poderia distinguir qual pessoa está falando o quê para exibir legendas automáticas que façam essa diferenciação. Um outro efeito da tecnologia que pode ser um pouco mais perigoso em relação a privacidade é que seria possível apontar uma câmera para uma multidão e escutar o que cada um está falando. O futuro dirá como essa tecnologia será usada.

 

Leia mais em Notícias Agrícolas

Fonte: Olhar Digital

 

Baixe grátis nossos E-books:

Nosso curso de Spread está com a turma lotada!

Estamos nos organizando para conseguir atender todos os alunos com excelência. Deixe seu e-mail que em breve vamos abrir uma nova turma e te avisaremos

Nosso curso MasterClass está com a turma lotada!

Estamos nos organizando para conseguir atender todos os alunos com excelência. Deixe seu e-mail que em breve vamos abrir uma nova turma e te avisaremos

Nosso curso de Análise Gráfica e Técnica está com a turma lotada!

Estamos nos organizando para conseguir atender todos os alunos com excelência. Deixe seu e-mail que em breve vamos abrir uma nova turma e te avisaremos