Equipamentos avançados e orçamentos de estúdios de cinema não são mais pré-requisitos para manipular vídeos de forma convincente.
Graças a algoritmos automatizados inteligentes, softwares e aplicativos livres já conseguem alterar expressões faciais de um indivíduo em uma gravação original ou até substituir seu rosto pelo de outra pessoa.
Tudo isso pode ser feito com um computador comum ou celular. E, em muitos casos, os usuários nem precisam instalar os programas.
A tecnologia tem evoluído rapidamente, conforme mostram inúmeros vídeos. Em comunidades online, colaboradores desenvolvem ferramentas de deep fakes com códigos abertos e interface simples que podem ser usadas até mesmo por usuários que não têm muita familiaridade com a tecnologia.
Em paralelo a esses avanços, a empresa chinesa Baidu criou um algoritmo que consegue clonar vozes usando poucos segundos de uma amostra e pode, inclusive, reproduzir sotaques e entonações em falas completamente inventadas.
Essas novas ferramentas de vídeo e áudio começam a despertar um debate sobre as consequências do seu uso para fins inescrupulosos, como a manipulação de eleições e a desestabilização de regiões em conflito.
A rede social Reddit, por exemplo, precisou lidar com o uso malicioso de deep fakes. Em fevereiro, a empresa baniu comunidades que empregavam algoritmos automatizados para substituir rostos de atrizes de filmes pornô por aqueles de celebridades.
Essas manipulações, contudo, eram simples e tecnicamente perceptíveis, algo que deve mudar em breve.
“Creio que artefatos visuais que podem ser facilmente detectados são problemas transitórios, de uma tecnologia em evolução”, diz à BBC News Brasil o pesquisador da área de computação gráfica Christian Riess, da Universidade Friedrich-Alexander Erlangen-Nürnberg, na Alemanha.
Programas na vanguarda da tecnologia
As iniciativas criadas por profissionais de ponta do setor, entretanto, são mais realistas. Um exemplo é o software Face2Face, desenvolvido há cerca de dois anos por um grupo de pesquisadores alemães do qual Riess faz parte e que está na vanguarda desta tecnologia.
O programa permite alterar em tempo real rostos em vídeos do YouTube apenas com uma câmera capturando os movimentos da face do “manipulador”. Mas o Face2Face não está sozinho entre as ferramentas criadas por pesquisadores.
Com base em 14 horas de vídeos públicos de Barack Obama, cientistas da Universidade de Washington, nos Estados Unidos, desenvolveram no ano passado um algoritmo capaz de sintetizar os movimentos labiais do ex-presidente dos Estados Unidos.
Eles conseguiram sincronizá-los de forma realista com gravações cujos temas eram diferentes aos da manipulação. Ou seja, eles puderam incluir em um vídeo recente o áudio de antigas entrevistas do democrata.
Conforme essa tecnologia é aperfeiçoada, a linha que separa a realidade da ficção fica cada vez mais nebulosa. Por isso, o grupo de Riess criou o software FaceForensics, capaz de identificar rostos manipulados em vídeos.
Segundo o pesquisador e doutor em computação científica, em um futuro não muito distante, essa tecnologia evoluirá a ponto de as edições serem imperceptíveis aos olhos humanos. Logo, dependeremos de softwares para autenticar vídeos suspeitos.
O problema é que programas de verificação não são infalíveis. “Se pensarmos em um cenário de Estados-nação adversários fazendo propaganda, eles poderiam tentar gerar um vídeo e esconder os rastros da manipulação. Isso se chama counter forensics“, diz Riess.
“A vida de peritos forenses fica muito mais difícil se alguém estiver trabalhando ativamente contra uma análise forense, tentando ocultar esses vestígios estatísticos de edição.”
Como identificar um vídeo manipulado
O FaceForensics utiliza um algoritmo que analisa um vídeo e sua cópia. O programa também aprende por conta própria as diferenças entre o original e a cópia e aplica esse conhecimento a vídeos de autenticidade desconhecida.
Mas qual é a diferença técnica entre uma fraude e o clipe verdadeiro?
“Um vídeo editado tem na área do rosto uma sobreposição de gráficos computacionais. É isso que o algoritmo detecta”, explica Riess.
Ou seja, algoritmos automatizados inteligentes deixam vestígios estatísticos. Como esse é um dos primeiros métodos para verificar vídeos suspeitos, a tecnologia ainda está em desenvolvimento.
De um modo geral, manipulações em gravações de qualidade baixa e compressão elevada são mais difíceis de identificar. Para esse grupo, o nível de precisão atual é de 87,1%. A taxa de sucesso em vídeos de alta qualidade e compressão simples é de 98%.
Há, entretanto, outro problema. Essas configurações se referem a um cenário no qual os pesquisadores conhecem ou possuem uma indicação do software usado para manipular os rostos.
O cenário se complica bastante se os vídeos forem editados com uma abordagem desconhecida, afirma Riess.
“Pense em uma situação na qual o serviço secreto de algum Estado esteja implementando sua própria abordagem matematicamente distinta. Esse é um tópico de pesquisa no qual estamos analisando, tentando generalizar esses resultados para cenários mais arbitrários.”
E a olho nu?
Por outro lado, a maioria das pessoas pode não ter acesso a ferramentas de verificação. Então, como identificar essas manipulações a olho nu?
Uma dica é prestar atenção à qualidade dos vídeos e na maneira como os rostos se movem. No caso dos deep fakes de celebridades em filmes adultos, os rostos digitalmente “transplantados” traziam erros visuais, como resolução mediana, oscilações, tremores e flutuações como se estivessem em algum líquido.
Edições de nível mais baixo também não parecerão naturais, podendo ser identificadas com atenção. Até mesmo o Face2Face incorpora levemente características do rosto do “manipulador” à face do alvo. Isso causa um estranhamento mínimo, mas presente.
Quando não for possível perceber visualmente as manipulações, Riess recomenda checar os fatos. Se uma atriz famosa estivesse em um filme pornográfico, isso seria notícia em um veículo de notícias legítimo.
Em assuntos mais sérios, como edições em vídeos de políticos, é preciso sempre analisar o contexto. “Em qual veículo esse vídeo aparece? Você confia na fonte? Alguém a checou? Quem se beneficiaria desse vídeo? Essas perguntas clássicas de jornalismo e checagem de fatos devem ser aplicadas”, diz o pesquisador.
Arma na guerra de propaganda entre Estados
Diversos países, entre eles China e Coreia do Corte, costumam utilizar hackers em ataques digitais contra outros Estados. A manipulação de vídeos pode se tornar uma nova arma nesse ambiente para propaganda, investidas contra adversários ou interferências em eleições externas.
Riess reconhece a possibilidade, em especial porque Estados teriam recursos para criar manipulações tecnicamente verosímeis, mas pondera que, no passado, atores estatais usaram edições “muito ruins” ou vídeos reais fora de contexto para atingir ganhos políticos.
“Vejo a manipulação de vídeos como apenas uma ferramenta dentro de um grande conjunto de possibilidades que um Estado-nação tem para fazer propaganda.”
O Face2Face mostrou ser possível manipular vídeos do YouTube em tempo real de forma muito convincente.
Com equipamentos básicos e algum conhecimento técnico, acredita Riess, uma pessoa comum e “motivada” pode criar uma manipulação convincente sozinha, o que dificultaria ainda mais monitorar a origem destes vídeos.
Como lidar com as novas tecnologias
Novas tecnologias, como o controverso avanço da inteligência artificial, costumam ser disruptivas e transformadoras, mas precisamos encontrar uma maneira de lidar com elas.
“Isso pode ser por meio de legislação, mas também é preciso alimentar na sociedade o conhecimento sobre certas coisas”, afirma Riess.
“Por exemplo, devemos falar sobre a checagem de fatos para criar consciência de que devemos ser cuidadosos. Esse é grau de amadurecimento social definitivamente necessário para se adaptar a mudanças tecnológicas.”
Essa adaptação, segundo Riess, também deve incluir um esforço das redes sociais para prevenir a divulgação de conteúdo manipulados em suas plataformas.
“Esperaria do Facebook, Twitter etc, e incorporaria nas regulações, que eles façam a sua parte na prevenção ativa”, afirma.
De acordo com o pesquisador, essas plataformas têm uma responsabilidade como organizações de mídia, mesmo que recusem essa definição.
“Não se pode simplesmente dizer que não é uma organização de mídia e esperar que todos concordem. Elas são organizações de mídia que tomam decisões sobre o que as pessoas lêem e o que elas não lêem. Isto é o que seus algoritmos fazem”, afirma Riess.
“De certa forma, são organizações de mídia de inteligência automatizada. Nesse sentido, é responsabilidade delas marcar ou não mostrar conteúdo razoavelmente duvidoso”, opina.