Quais são os vídeos deepfake e detectá-los piscar de olhos

Uma nova forma de desinformação está preparada para se espalhar pelas comunidades online, à medida que as campanhas eleitorais de meio de mandato da 2018 se aquecem. Chamado de "deepfakes" após o conta online pseudônima que popularizou a técnica - que pode ter escolhido o nome porque o processo usa um método técnico chamado "deep learning" - esses vídeos falsos parecem muito realistas.

Até agora, as pessoas usaram vídeos deepfake em pornografia e sátira para fazer parecer que pessoas famosas estão fazendo coisas que normalmente não fariam.

Mas é quase certo deepfakes aparecerão durante a temporada da campanha, pretendendo representar candidatos dizendo coisas ou indo a lugares que o candidato real não faria.

É Barack Obama - ou é?

{youtube}cQ54GDm1eL0{/youtube}

Como essas técnicas são tão novas, as pessoas estão tendo dificuldade em dizer a diferença entre os vídeos reais e os vídeos deepfake. Meu trabalho, com meu colega Ming-Ching Chang e nosso Ph.D. estudante Yuezun Li, encontrou uma maneira de confiantemente contar vídeos reais de vídeos deepfake. Não é uma solução permanente, porque a tecnologia vai melhorar. Mas é um começo, e oferece esperança de que os computadores serão capazes de ajudar as pessoas a verem a verdade a partir da ficção.


innerself assinar gráfico


O que é um 'deepfake', afinal?

Fazer um vídeo deepfake é muito parecido com a tradução entre idiomas. Serviços como Traduz Google use aprendizado de máquina - análise computacional de dezenas de milhares de textos em vários idiomas - para detectar padrões de uso de palavras que eles usam para criar a tradução.

Os algoritmos deepfake funcionam da mesma maneira: eles usam um tipo de sistema de aprendizado de máquina chamado rede neural profunda para examinar os movimentos faciais de uma pessoa. Então eles sintetizam imagens do rosto de outra pessoa fazendo movimentos análogos. Fazê-lo efetivamente cria um vídeo da pessoa-alvo aparecendo para fazer ou dizer as coisas que a pessoa da fonte fez.

Como vídeos deepfake são feitos.

{youtube}8LhI-e2B8Lg{/youtube}

Antes que possam funcionar adequadamente, as redes neurais profundas precisam de muitas informações de origem, como fotos das pessoas que são a fonte ou o alvo da representação. Quanto mais imagens forem usadas para treinar um algoritmo deepfake, mais realista será a representação digital.

Detectando piscando

Ainda há falhas nesse novo tipo de algoritmo. Um deles tem a ver com como os rostos simulados piscam - ou não. Humanos adultos saudáveis ​​piscam algures entre todos os segundos 2 e 10, e uma única piscada leva entre um décimo e quatro décimos de segundo. Isso é o que seria normal ver em um vídeo de uma pessoa falando. Mas não é o que acontece em muitos vídeos deepfake.

Uma pessoa real pisca enquanto fala.

{youtube}https://www.youtube.com/watch?v=-MMXXEA3UaM{/youtube}

Um rosto simulado não pisca como uma pessoa de verdade faz.

{youtube}EttSA9-YIuI{/youtube}

Quando um algoritmo deepfake é treinado em imagens de rosto de uma pessoa, depende das fotos disponíveis na Internet que podem ser usadas como dados de treinamento. Mesmo para pessoas que são fotografadas com frequência, poucas imagens estão disponíveis on-line mostrando seus olhos fechados. Não são apenas fotos assim raras - porque os olhos das pessoas estão abertos a maior parte do tempo - mas os fotógrafos geralmente não publicam imagens em que os olhos dos sujeitos principais estão fechados.

Sem treinar imagens de pessoas piscando, os algoritmos deepfake têm menor probabilidade de criar rostos que pisquem normalmente. Quando calculamos a taxa geral de intermitência e a comparamos com a variação natural, descobrimos que os personagens em vídeos deepfake piscam muito menos frequentemente em comparação com pessoas reais. Nossa pesquisa usa aprendizado de máquina para examine a abertura dos olhos e feche os vídeos.

Isso nos dá uma inspiração para detectar vídeos deepfake. Posteriormente, desenvolvemos um método para detectar quando a pessoa no vídeo pisca. Para ser mais específico, ele verifica cada quadro de um vídeo em questão, detecta os rostos e, em seguida, localiza os olhos automaticamente. Em seguida, utiliza outra rede neural profunda para determinar se o olho detectado está aberto ou fechado, usando a aparência do olho, características geométricas e movimento.

Sabemos que nosso trabalho está aproveitando uma falha no tipo de dados disponíveis para treinar algoritmos deepfake. Para evitar cair em uma falha semelhante, treinamos nosso sistema em uma grande biblioteca de imagens de olhos abertos e fechados. Este método parece funcionar bem e, como resultado, alcançamos uma taxa de detecção de porcentagem acima de 95.

Esta não é a última palavra em detectar deepfakes, é claro. A tecnologia é melhorando rapidamentee a competição entre gerar e detectar vídeos falsos é análoga a um jogo de xadrez. Em particular, o piscar pode ser adicionado a vídeos deepfake, incluindo imagens faciais com os olhos fechados ou usando sequências de vídeo para treinamento. As pessoas que querem confundir o público ficarão melhores em criar vídeos falsos - e nós e outras pessoas na comunidade de tecnologia precisaremos encontrar maneiras de detectá-los.A Conversação

Sobre o autor

Siwei Lyu, Professor Associado de Ciência da Computação; Diretor de Laboratório de Visão Computacional e Aprendizado de Máquina, Universidade de Albany, Universidade Estadual de Nova York

Este artigo foi originalmente publicado em A Conversação. Leia o artigo original.

Livros relacionados

at InnerSelf Market e Amazon