O Google lançou na terça-feira (23) um novo modelo de inteligência artificial gerador de vídeos, o Lumiére —uma referência aos irmãos criadores do cinema. O material de apresentação mostra uma sequência de imagens surreais em qualidade surpreendente na comparação com aquelas geradas por outros modelos no mercado.
Ainda sem data para chegar ao público, a IA colocou animais para executarem atividades humanas, deu movimento a obras consagradas das artes plásticas e criou cenários fictícios, como um astronauta a caminhar por marte.
De acordo com o artigo publicado por engenheiros do Google, as imagens geradas pela nova tecnologia mantém coerência ao longo do tempo, diferente de outras plataformas disponíveis do mercado, como a Runway, já testada pela Folha. Cada trecho gerado tem cinco segundos (80 quadros a uma frequência de 16 quadros por segundo).
Isso é possível porque a rede neural usada para treinar a inteligência artificial usa uma técnica inédita, que considera o vetor temporal, além da composição e cores do quadro. Assim, o fator tempo entra na conta. Veja como funciona no esquema abaixo.
A técnica também permite que as imagens geradas mantenham alta qualidade. Veja os vídeos gerados pela equipe do Google e que foram disponibilizados no artigo.
O Lumiere vem na sequência do Imagen Video de 2022, que entregava sequências com 24 frames por segundo, nem sempre coerentes.
A dona do Instagram, Meta, também já havia divulgado em novembro o Emu Vídeo que anima imagens estáticas —também não disponível ao público. Esse também é uma melhoria do Make-A-Video de 2022.
Em um ano marcado por eleições, IAs geradoras de vídeo geram receios sobre a possibilidade de impulsionamento de deepfakes —vídeos falsos que simulam aparência e voz das vítimas para distorcer a realidade.
A criadora do ChatGPT, OpenAI, por exemplo, proíbe que seu modelo gerador de imagens copie a aparência de pessoas reais.
Outras plataformas geradoras de vídeo, porém, já circulam na internet. O Runway Gen 2, por exemplo, está aberto para testes desde junho do ano passado.
O modelo de código aberto Stable Video Diffusion, lançado em novembro, foi capaz de gerar um deepfake do ator Will Smith comendo Spaghetti. O material, porém, é mais cômico do que verossímil.
COMO FUNCIONA O LUMIERE
O Lumiere gera vídeos a partir de texto, em um sistema similar ao ChatGPT. Basta ao usuário descrever a cena que quer criar. Foi assim que o Google criou a cena de um cachorro vestido em óculos descolados dirigindo pelas ruas de San Francisco.
A plataforma também é capaz de animar imagens estáticas, a partir de uma descrição. A arte ou foto também pode servir de referência de estilo para o modelo de IA.
Outra inovação do Lumiere é a opção de editar apenas parte do vídeo. Dessa forma, é possível alterar roupas de um personagem gravado ou alterar objetos de um cenário.