As_verdades_dos_deepfakes. sobre v arias intensidades .
1. Richard Nixon, então presidente dos EUA, dirige-se à nação para comunicar o fracasso da missão espacial Apolo 11.
O discurso, nunca lido por Nixon, foi escrito para o caso de um acidente espacial. Este vídeo deepfake é parte da
instalação No caso de um desastre lunar (2019), criada para alertar sobre os riscos de falsificação da história.
O ex-presidente norte-americano Barack Obama diz algo que nunca disse em vídeo deepfake produzido pelo
cineasta Jordan Peele para denunciar as notícias falsas.
AS VERDADES
DOS DEEPFAKES
O uso de inteligência artificial vem borrando as fronteiras entre
a realidade e a ficção, tornando cada vez mais difícil verificar a
legitimidade de fotos e vídeos. Enquanto ainda se debate a
ética da manipulação digital, programas inventam imagens
verossímeis, com consequências políticas e sociais imprevisíveis.
Conhecidas como deepfakes, essas imagens vieram para ficar.
Por GISELLE BEIGUELMAN
[ 50 ] [ 51 ]
2. A INTELIGÊNCIA ARTIFICIAL (IA) saiu do armário.
Abandonou o mundo da ficção científica e deixou
de ser exclusividade dos especialistas das ciências
exatas. Invadiu as start-ups, migrou para os celulares,
tomou de assalto a indústria da pornografia e anun-
cia novas dimensões da política das imagens no
século 21. Por processos de aprendizado de máquina
e sistemas de visão computacional, o fenômeno dos
deepfakes (literalmente, “profundamente falsos”)
dissemina-se nos efeitos especiais, como as técnicas
de rejuvenescimento aplicadas nos atores Al Pacino
e Robert De Niro no filme O irlandês (2019), de Mar-
tin Scorsese. O fenômeno também deu novo fôlego à
fama de Nicolas Cage como protagonista de memes
e vídeos no YouTube, e é a arma mais temida das
eleições presidenciais norte-americanas deste ano,
capaz de colocar na boca de Donald Trump discur-
sos de um adversário, e vice-versa. Uma prévia do que
pode vir por aí apareceu em um vídeo que bombou
no site BuzzFeed em abril de 2018, em que Barack
Obama atacava os Panteras Negras e xingava Trump.
A tecnologia ficou acessível ao usuário amador
com o lançamento, em setembro de 2019, do aplica-
tivo chinês Zao, que transforma qualquer pessoa em
astro de Hollywood em segundos. Em dois dias, o
aplicativo bateu recorde de downloads na loja chi-
nesa da Apple. Tão instantânea quanto o sucesso do
Zao foi a onda de protestos contra violação de priva-
cidade que ele gerou, pois a Momo, empresa desen-
volvedora do aplicativo, se reservava o direito de usar
as imagens e as informações biométricas comparti-
lhadas pelos seus usuários. As reclamações a leva-
ram a revogar essa prática. Além disso, a nova legis-
lação da internet chinesa, anunciada em novembro
de 2019, proíbe o uso de recursos de ia sem divulga-
ção prévia, regulação motivada pela proliferação das
fake news (notícias falsas). Apesar dos mecanismos
de controle, contudo, o Zao abriu as portas para a
popularização das tecnologias de criação de imagens
baseadas em ia, e orientadas para o desenvolvimen-
to de deepfakes.
O termo deepfake apareceu em novembro de 2017 no
Reddit, uma rede social de discussões temáticas. Era o
apelido de um usuário e o nome de um fórum dedica-
do a aplicar tecnologias de aprendizagem profunda
para substituir o rosto de atrizes pornôs pelo de celebri-
dades mulheres. O grupo foi banido do Reddit no iní-
cio de 2018, mas a prática do deepfake se consolidou.
Um levantamento feito pela empresa holandesa
Deeptrace, que desenvolve algoritmos para a identi-
ficação de deepfakes, mostra que o número de vídeos
deepfakes praticamente dobrou no último ano, sal-
tando de 7.946 em dezembro de 2018 para 14.678 em
dezembro de 2019. Desses vídeos, 96% são pornográ-
ficos, e atingem cerca de 135 milhões de visualizações.
Todos exploram mulheres. Entre os não pornográfi-
cos, o fenômeno se inverte e tem como alvo prioritário
homens, em geral políticos e figurões corporativos.
Antes que se diga que não há nada de novo nisso,
que o stalinismo deitou e rolou em fotos adultera-
das, que o nazismo e o fascismo fraudaram inúmeras
outras e que depois do Photoshop ninguém mais se
surpreende com manipulações de imagens, é bom fri-
sar: deepfake não é colagem, tampouco edição e dubla-
gem. Deepfake é imagem produzida por algoritmo,
processada sem mediação humana, que utiliza milha-
res de imagens estocadas em bancos de dados para
aprender os movimentos faciais de uma pessoa, inclu-
sive os movimentos dos lábios e as modulações de voz,
e prever como ela poderia falar algo que não disse.
Na instalação No caso de um desastre lunar (2019),
Francesca Panetta, diretora de criação do Centro de
Virtualidade Avançada do Instituto de Tecnologia
de Massachusetts (MiT), criou, em parceria com
Halsey Burgund, do Open Documentary Lab, da
mesma instituição, um vídeo em que o presidente
Richard Nixon reporta, diretamente do Salão Oval
da Casa Branca, um suposto desastre ocorrido com
a missão lunar Apolo 11 em 1969. Seu discurso foi
escrito por Bill Safire e seria lido no caso de um aci-
dente que, como se sabe, não aconteceu. A motiva-
ção do projeto, segundo os autores, é “alertar para
Estes rostos, de pessoas que
não existem, foram criados
com uso de inteligência
artificial pelo projeto
thispersondoesnotexist.com.
[ 52 ]
3. os riscos de os deepfakes falsificarem não apenas o
presente, mas também o passado”.
A popularização da tecnologia de deepfake e os
riscos éticos e políticos que isso implica levaram
três das maiores empresas de tecnologia – Micro-
soft, Amazon e Facebook – a se unirem no Desafio
de Detecção de Deepfakes. O projeto, que termina em
setembro de 2020, tem como objetivo criar recursos
de identificação e controle de deepfakes em suas pla-
taformas. Hospedada pela Kaggle, do Google – a outra
gigante do time –, promete um prêmio de um milhão
de dólares à equipe vencedora.
A união dessas empresas é suficiente para intuir
a escala do problema. Escândalos recentes, como o
papel da Cambridge Analytica na eleição de Donald
Trump e dos robôs de WhatsApp no último pleito
presidencial no Brasil são exemplos das perversas
relações entre redes sociais, aplicativos e política.
Embora existam alguns sinais que denunciam
uma imagem deepfake (fundos desfocados, brincos
desemparelhados, movimentos estranhos de micro-
fones, por exemplo), a tecnologia evolui rapidamente,
e a tendência é que os recursos fiquem cada vez mais
sofisticados. Além do mais, depois que um vídeo ou
uma foto viralizam na internet, toda ação posterior é
paliativa. O estrago está feito.
Apesar de serem imagens fictícias, deepfakes
são gerados a partir de imagens reais. Eles são
construídos com base em grandes conjuntos de
dados e a partir de redes neurais, uma arquitetura
computacional que tem por analogia o funcionamen-
to do cérebro e interconecta padrões escondidos nos
dados. Nesse processo, os algoritmos vasculham as
informações inscritas no código de um arquivo para
identificar as conexões internas entre seus dados
ocultos e as dos outros arquivos do mesmo conjun-
to. Com essa identificação, são capazes de agrupar e
classificar os dados e prever comportamentos e ações.
O desenvolvimento das Redes Generativas Adver-
sárias (gans, em inglês), uma arquitetura de redes
apresentada em 2014, marcou uma revolução no
campo das imagens. Nessa arquitetura, duas redes
são colocadas uma contra a outra, atuando respecti-
vamente como geradoras e discriminadoras. Compe-
te à primeira gerar imagens e, à segunda, decidir se
aquela imagem é real ou falsa. No jogo de gato e rato
entre algoritmos, o discriminador aprende a reco-
nhecer e classificar as imagens verdadeiras.
Mas o reverso também ocorre. Quanto mais o dis-
criminador aprende a reconhecer as imagens falsas,
mais o gerador aprende a enganá-lo. Essa é a receita
por trás de um vídeo deepfake, o que explica a razão
de celebridades e personalidades públicas serem mais
vulneráveis que outros usuários das redes a se trans-
formarem em protagonistas de um vídeo “profunda-
mente falso”. A quantidade de imagens dessas pessoas
disponíveis on-line é muito maior que a de outros
usuários, fornecendo mais dados para o aprendizado
de seus gestos, sua fala e suas expressões faciais.
A facilidade de criar deepfakes aumenta conforme
se sofisticam suas metodologias e a capacidade de
produção. As imagens do site Esta Pessoa Não Existe
(thispersondoesnotexist.com), de Philip Wang, enge-
nheiro sênior de software da Microsoft, por exemplo,
utilizam uma geração mais nova de redes artificiais,
as Stylegans2. Os algoritmos dessas redes extraem
informações por meio de transferência de estilos
(especificidades estéticas como iluminação, curvas,
contraste etc.). A partir de uma imagem facial, o gera-
dor aprende a distribuição dos elementos de um ros-
to e aplica suas características em uma nova imagem.
Diferente dos sistemas anteriores, que não eram
capazes de controlar quais aspectos específicos de
um rosto gerariam, esse permite determinar atribu-
tos físicos e faciais particulares sem alterar nenhum
outro. Isso resulta em maior fidelidade de traços
identitários e pessoais, como os estilos de cabelo e
tipos de rosto, formato e cor dos olhos.
As fotos do site intrigam, inicialmente, pela seme-
lhança com pessoas reais. Intrigam, também, por
serem a primeira geração de imagens realistas que
prescindem do olhar humano, já que são sintetizadas
Deepfake não é colagem, tampouco edição e dublagem. É imagem
produzida por algoritmo, que utiliza milhares de imagens estocadas
em bancos de dados para aprender os movimentos faciais de uma
pessoa e prever como ela poderia falar algo que não disse.
[ 54 ]
4. por algoritmos treinados por sistemas de aprendiza-
do de máquina. Escrevem, assim, um novo capítulo
na história da pós-fotografia, que já havia descartado
a necessidade da câmera, tema abordado por vários
pensadores e fotógrafos, como Joan Fontcuberta,
cuja série Googlegrams (2005) é referência para a com-
preensão desse imaginário emergente.
Mas há algo de mais perturbador nessas fotos.
Para além das discussões sobre veracidade, apropria-
ção e embate entre o humano e a máquina (eterna
questão do meio fotográfico, como mostram os pen-
sadores Raymond Bellour e Philippe Dubois), há que
se considerar aqui uma nova política das imagens.
Todos esses sistemas são produzidos por megaem-
presas de tecnologia que monopolizam inúmeros
setores da vida social contemporânea. O modelo das
gans é obra de Ian Goodfellow, pesquisador do Google.
O das Stylegans foi desenvolvido nos laboratórios da
Nvidia, rainha das unidades de processamento gráfi-
co (fundamentais para a execução de jogos e vídeos)
e potência do mercado de ia.
Imagens digitais não são versões de imagens quí-
micas feitas com novos materiais. São imagens com-
putacionais. Carregam informações, das coordenadas
geográficas de onde foram capturadas até a identida-
de de quem as fez, o equipamento utilizado, como
e quando foram compartilhadas. Mais do que pró-
teses de visão, como o filósofo Paul Virilio chamou
as câmeras, os dispositivos de captação de imagem
hoje são, acima de tudo, dispositivos de extroversão
de imagens. Atreladas cada vez mais às redes sociais,
como Instagram, Snapchat e TikTok, as câmeras
servem para mostrar, não para ver.
Foi-se o tempo das câmeras como dispositivos
de enquadramento e captura. Com a fotografia digi-
tal, como indicou a artista Hito Steyerl, as câmeras
se transformaram em dispositivos de projeção. A seu
reboque, a imagem converte-se no pressuposto de
qualquer sistema inteligente de vigilância. É verda-
de que essa trajetória remete à invenção da fotogra-
fia, mas, como ressaltou o professor Jake Goldenfein,
nenhuma empresa da indústria da fotografia jamais
esteve entre as maiores corporações do mundo. E não
apenas em termos de porte e valor. As megacorpora-
ções a que nos referimos são não apenas detentoras
dos principais serviços on-line que usamos; são tam-
bém os principais atores do mercado de visão com-
putacional e de serviços de armazenamento de dados.
Essa dinâmica evidencia o peso dos padrões no
vocabulário visual da atualidade. Todo o sistema de
redes neurais depende da construção de padrões. Não é
por acaso que os retratos de Esta Pessoa Não Existe têm
o mesmo olhar e um sorrisinho de cara de paisagem.
(Ou será que “cara de ia” é a nova cara de paisagem?)
Deepfakes não choram? Não sentem dor?
Um experimento conduzido por Bernardo Fon-
tes, pesquisador do Grupo de Experiências Críticas
em Infraestruturas Digitais (Gecid) do Inova-usp,
mostra o grau de padronização embutido nos pro-
cessos de visão computacional. Bernardo baixou
4,1 mil imagens geradas pelo site Esta Pessoa Não
Existe e separou três conjuntos de 100, 500 e mil ima-
gens, sem repeti-las. Ao sobrepor as imagens, espera-
va que ocorresse uma convergência nos pontos dos
olhos, da boca e do nariz, já que a posição desses
órgãos, nas fotos do site, é sempre fixa (sua posição
referencial está nas mesmas coordenadas, indepen-
dente de o rosto aparecer de frente ou de perfil).
A surpresa foi que, apesar de os retratos serem
diferentes entre si, os três conjuntos resultaram em
imagens praticamente idênticas. De acordo com o
estudo de Lucas Nunes Sequeira, também pesquisa-
dor do Gecid, a convergência aparece já na superpo-
sição das primeiras 100 imagens, quando também se
verifica a predominância do padrão de pele branca,
revelando as matrizes de poder social embutidas no
tsunâmi de rostos supostamente felizes dos deepfakes.
Fabricados a partir de conjuntos de dados de
imagens de pessoas reais, os deepfakes reproduzem
as dinâmicas raciais e de classe que prevalecem na
internet. A imagem, sintetizada de forma mecânica,
provém de grandes conjuntos de dados rotulados
Há que se considerar aqui uma nova política das imagens. Todos
esses sistemas são produzidos por megaempresas de tecnologia
que monopolizam inúmeros setores da vida social contemporânea.
[ 56 ]
5. pelo precariado da Amazon Mechanical Turk, um
serviço da Amazon que arregimenta trabalhado-
res remotos para realizar tarefas seriadas a custos
ínfimos. No caso da Stylegan2, a rede neural por
trás de Esta Pessoa Não Existe, os “turcos mecânicos”
foram responsáveis pela construção do banco de
dados Flickr-Faces-hq, utilizado para elaborar rede.
Esses trabalhadores braçais on-line foram encarre-
gados de remover imagens de estátuas, pinturas ou
fotos de fotos, conforme informações que constam
no repositório de seus códigos, armazenados na pla-
taforma GitHub.
Outro ponto a ser considerado na compreensão
do “sorriso das ias” é que, ao originar-se de con-
juntos de dados compostos com imagens das redes,
espelham os modos pelos quais, via de regra, as pes-
soas se apresentam on-line: como heróis de suas
próprias vidas, em que só cabem sucessos.
Mas deepfakes iluminam outros sentidos da nor-
matização do olhar que emergem com a visão com-
putacional e que não se explicam por variáveis socio-
lógicas e históricas tradicionais, nem pelo repertório
consagrado da crítica de arte. Esses meandros reme-
tem à cadeia produtiva que envolve desde câmeras
(cada vez menos dependentes de lentes e sensores e
cada vez mais de ia) aos programas de processamento
de imagens. Em conjunto, respondem e modelam a
formatação padronizada de perspectivas, cores e pon-
tos de vista que se multiplicam em aplicativos como
o Instagram, ironizado no perfil @Insta_repeat, que
veicula mosaicos de fotos quase idênticas de diferen-
tes usuários, mostrando a pasteurização do conteúdo
oferecido na rede social.
Ficamos aliviados quando o editor de imagens
do celular autocorrige uma foto que saiu toda tor-
ta, como num passe de mágica. Mas isso é também
um indicador da presença da visão computacional
no nosso cotidiano, e dos modos como naturaliza-
mos suas regras na expressão cultural. É verdade que
muitas vezes o padrão não corresponde ao que se
desejava registrar, e que é possível reverter as corre-
ções do programa. No entanto, a tendência é que as
câmeras, cada vez mais “inteligentes”, aprendam a
corrigir as fotos já na captura, forçando-nos a obede-
cer aos seus desígnios pré-fabricados. Vivemos uma
situação paradoxal. Criamos, pela democratização
dos meios, talvez a mais rica e plural cultura visual
da história, ao mesmo tempo que mergulhamos no
limbo da uniformização do olhar.
A selfie é uma prova dessa tendência. Afinal, ela
mudou para sempre a angulação do autorretrato,
que deixou de ser frontal, em correspondência à
câmera no tripé, e se adaptou à captura com o celu-
lar na mão, com angulação de 7o
a 17o
, como mostrou
o professor Lev Manovich no projeto Selfiecity (2014).
Esse processo de naturalização do padrão maquí-
nico na cultura visual, no caso dos deepfakes, já
começou. O Snapchat e o TikTok, as redes da vez,
usam seus recursos para oferecer aos usuários filtros
que permitem colocar rostos em novos corpos. Tudo
ainda de modo cômico e ostensivamente falso, mas
não faltam tecnologias para fazer mais profissional-
mente o que é feito como entretenimento nas redes.
É questão de tempo para que passemos a usar essas
tecnologias de forma corriqueira.
Seguindo o caso das selfies, dos círculos vicio-
sos e viciantes das fotos e vídeos que circulam nas
redes sociais e, especialmente, das normas codifica-
das nos dispositivos de imagens, é plausível pensar
que, superados os bugs que ainda persistem nos
deepfakes, aprenderemos a conviver com eles. Ou
melhor: seremos treinados pelas máquinas a vê-los
como deeptrues.
Tudo indica que os deepfakes não são um modis-
mo passageiro. Devem evoluir e tomar outros forma-
tos, mas o seu núcleo duro – imagens produzidas
a partir de conjuntos de dados controlados por sis-
temas de aprendizado de máquina padronizantes –
veio para ficar. Que lugar social poderá ocupar a ima-
gem que foge ao padrão? Seria o deepfake o anúncio
de uma nova era da eugenia das imagens? ///
IMAGENS SEM AUTOR, CRIADAS PELO PROJETO ESTA PESSOA NÃO EXISTE, DE PHILIP WANG
Vivemos uma situação paradoxal. Criamos, pela democratização dos
meios, talvez a mais rica e plural cultura visual da história, ao mesmo
tempo que mergulhamos no limbo da uniformização do olhar.
[ 58 ]