O Google DeepMind acaba de apresentar uma nova ferramenta de inteligência artificial, chamada de V2A (video-to-audio), capaz de criar trilhas sonoras, diálogos e efeitos sonoros para vídeos com base nas informações visuais contidas nas imagens.
Essa tecnologia analisa os pixels do vídeo e combina essas informações com prompts de texto em linguagem natural para gerar áudios que acompanham a ação na tela.
A V2A está atualmente em fase de testes e passará por avaliações de segurança antes de ser disponibilizada ao público. Segundo a equipe do Google, cineastas e criadores de conteúdo estão experimentando a ferramenta e fornecendo feedback durante esse período de experimentação. A data exata para o lançamento público ainda não foi anunciada.
Como Funciona a V2A
O laboratório de inovação e IA do Google, o DeepMind, explica que a tecnologia V2A utiliza as informações visuais do vídeo para gerar um áudio que se alinha aos elementos presentes na tela. A ferramenta codifica o vídeo de entrada em uma representação compacta e, em seguida, utiliza um modelo de difusão para aprimorar iterativamente o áudio a partir de ruídos aleatórios.
A equipe responsável pela V2A explica que, ao treinar o modelo com dados de vídeo, áudio e anotações adicionais, a tecnologia aprende a associar eventos sonoros específicos a diferentes cenas visuais, ao mesmo tempo que responde às informações fornecidas nas anotações ou transcrições.
Embora a ferramenta possa incluir comandos de texto como prompts, eles são opcionais. A V2A é capaz de criar trilhas sonoras com base apenas no conteúdo visual. Além de ser aplicada a vídeos contemporâneos, a V2A pode ser utilizada em materiais tradicionais, como filmes silenciosos e arquivos históricos.
No entanto, o laboratório destaca alguns desafios. Primeiramente, os resultados da IA dependem da qualidade do vídeo de entrada, e vídeos granulados ou distorcidos podem resultar em uma queda perceptível na qualidade do áudio. Além disso, a sincronização labial em vídeos que envolvem diálogos ainda é imprecisa e requer mais tempo de treinamento.
Exemplos da Nova IA
O Google DeepMind compartilhou alguns exemplos de vídeos com áudios gerados pela V2A em seu blog oficial. Em um vídeo que mostra um carro em uma cidade futurista, a ferramenta criou sons de derrapagem, aceleração do motor e uma trilha de música eletrônica que se ajustam aos movimentos do veículo.
Em outro exemplo, a IA gerou um ambiente sonoro de terror com base no prompt “cinematográfico, suspense, filme de terror, música, tensão, ambiente, pegadas no concreto”.
Todos os conteúdos gerados pela IA V2A terão a marca d’água SynthID do Google para indicar sua origem artificial, com o objetivo de prevenir o uso indevido da tecnologia.
Para ficar por dentro dos lançamentos do mundo da tecnologia, eu recomendo que você dê uma olhada nas redes sociais do CanalJMS. Por isso, é importante que você nos siga no Instagram e acompanhe nosso canal no YouTube, além de conferir nossos posts diários por aqui também!