A Google pode estar a preparar uma grande novidade para o YouTube: um tradutor em tempo real. Esta funcionalidade inovadora foi apresentada durante o evento Google I/O 2023, onde a integração da inteligência artificial PaLM 2 com a restante estrutura da Google, incluindo o Bard, foi uma das grandes temáticas.
No entanto, a Google não está a pensar em lançar imediatamente todas as funcionalidades. Durante a apresentação, James Manyika, o vice-presidente sénior de tecnologia e sociedade da empresa, expressou preocupação sobre a relação entre informação errónea e algumas capacidades da IA, nomeadamente a tecnologia por trás dos deepfakes.
O que James mencionou foi a utilização dos modelos de linguagem dos deepfakes para dobrar vozes em vídeos, onde de repente um monólogo de um ator famoso num dos melhores programas de televisão ou filmes é substituído por uma sincronização labial.
“Guardrails”: a proteção contra o uso indevido de novas funcionalidades
Por causa destas preocupações, a Google está a implementar o que chamou de “guardrails” (barreiras de proteção), para evitar o uso indevido de algumas destas novas funcionalidades, deixando artefactos em fotos e vídeos, como marcas d’água e metadados. Uma das ferramentas que pode ser muito útil e benéfica, mas que poderia ser facilmente mal utilizada, é um protótipo que a Google está a testar com um número limitado de parceiros, o “universal translator”.
O “universal translator”: um serviço experimental de dobragem em tempo real
Este “universal translator” da Google é um serviço experimental de dobragem de vídeo com IA que traduz a fala em tempo real, permitindo-te ler instantaneamente o que alguém diz numa língua diferente enquanto assistes a um vídeo. O protótipo foi apresentado durante o evento, com vídeos de um teste que foi parte de um curso universitário online criado em parceria com a Arizona State University.
O modelo funciona em quatro etapas. Primeiro, o modelo relaciona os movimentos labiais num vídeo com palavras que reconhece. Depois, aciona um algoritmo que gera fala instantânea. Na terceira etapa, o modelo utiliza a entoação, que mede a subida e descida no ritmo natural da fala, para ajudar na tradução. Por fim, após replicar o estilo e igualar o tom a partir dos movimentos labiais do orador, junta tudo para gerar a tradução.
Os primeiros resultados têm sido promissores, com os estudantes universitários do estudo a apresentarem um número mais elevado de conclusões de cursos. Esta funcionalidade ainda não está disponível fora de um pequeno grupo de teste, mas é possível que, uma vez que a Google tenha as suas medidas de proteção implementadas, disponibilize em serviços como o YouTube, por exemplo.
Outros artigos interessantes: