“Quando nós mostramos o Macintosh, no dia seguinte, eu estava com os engenheiros, trabalhando nele. E me lembro de ter pensado: por que estamos promovendo esse produto? Ele é uma porcaria, não faz metade das coisas que nós prometemos.”
Essa é uma das revelações feitas por Steve Jobs, o fundador da Apple, numa entrevista de 20 minutos publicada em outubro pelo americano Joe Rogan, dono do maior podcast dos EUA. Jobs também falou da Microsoft (“se o Windows tivesse sido lançado um ano antes, nós estaríamos ferrados”), do futuro da tecnologia (“os computadores serão várias ordens de magnitude mais inteligentes do que as pessoas”) e sobre suas experiências tomando LSD (“ele mostra a você que tudo está conectado, que você não está aqui por acidente”).
A entrevista (1) repercutiu bastante nos EUA. Mas não pelo conteúdo – e sim pelo fato de que ela não é real. As vozes de Jobs e Rogan foram sintetizadas pela empresa Play.ht, que criou as falas e as transformou em áudio usando um algoritmo chamado Peregrine, que ela desenvolveu e é o primeiro capaz de reproduzir a respiração, as pausas, as risadas, as variações de tom e outros elementos típicos da fala humana de forma realmente convincente, sem parecer montagem.
Ao apresentar o Peregrine, a empresa também publicou falas sintetizadas de outras celebridades e figuras públicas, como Elon Musk e John Kennedy. “Nós acreditamos num futuro onde todo o conteúdo será gerado por inteligência artificial, mas guiado por humanos”, disse a companhia.
Ela tem uma biblioteca com 832 vozes, em 132 idiomas, prontas para falar o que você quiser. Também oferece um serviço de “clonagem de voz personalizada”, que promete replicar digitalmente qualquer pessoa. E é aí que mora o perigo.
Talvez você já tenha ouvido falar dos deepfakes: vídeos falsos, gerados com ferramentas de inteligência artificial. Há vários, inclusive no Brasil – em janeiro de 2022, bem antes das eleições, o jornalista Bruno Sartori produziu clipes do tipo com Luiz Inácio Lula da Silva e Sérgio Moro para demonstrar essa técnica.
Eles são claramente fake, tanto pelo conteúdo (Lula fala sobre paçoca, e Moro recita um poema meio obsceno) quanto pelo resultado, que tem imperfeições visuais típicas da técnica utilizada – ferramentas de deep learning, um tipo de algoritmo que aprende a reconhecer, recortar, montar e animar rostos (automatizando o trabalho que um especialista em computação gráfica conseguiria, com tempo e esforço, fazer manualmente).
Em outubro, o americano Bruce Willis foi vítima de uma delas. O ator, que se aposentou este ano após ser diagnosticado com afasia (doença neurológica que compromete a fala), apareceu num anúncio de TV da operadora de telefonia russa Megafon.
Seu rosto foi clonado digitalmente, por uma empresa chamada Deepcake, e aplicado sobre o de um ator russo. Ela diz ter assinado um contrato que lhe dá o direito de usar a imagem de Willis – o que a assessoria do ator nega.
Então os deepfakes são um baita problema, certo? Mais ou menos. Desde o surgimento dos primeiros, em 2018, receia-se que eles venham a ser usados em eleições pelo mundo.
Mas, até hoje, isso nunca aconteceu (com uma exceção: em 2022, durante a corrida presidencial na Coreia do Sul, o candidato Yoon Suk-yeol autorizou a própria campanha a criar deepfakes dele, que foram batizados de AI Yoon e tiveram milhões de visualizações. Yoon foi eleito).
Os deepfakes nunca se tornaram uma ameaça real, porque eles são limitados – a pessoa falsa tem que estar com o rosto bem de frente para a câmera – e relativamente fáceis de identificar e desmascarar, seja a olho nu ou com softwares feitos especificamente para isso.
O MIT e a Universidade de Munique já criaram algoritmos do tipo, e um pesquisador da Unicamp, em parceria com cientistas da Universidade de Hong Kong, também (2). Essas ferramentas são bem precisas: tipicamente, elas conseguem pegar mais de 95% dos deepfakes.
Já com o áudio, a coisa é diferente. A voz forjada por inteligência artificial é muito mais difícil de identificar: o resultado, como mostra o podcast com Steve Jobs, pode ser essencialmente indistinguível da fala real.
É algo tão perigoso que a Adobe, que em 2016 criou e demonstrou publicamente o primeiro software capaz de fazer isso, o VoCo, decidiu jamais lançá-lo. Mas isso não impediu que outras empresas desenvolvessem ferramentas do tipo – além da Play.ht, existem outros serviços online que prometem clonar qualquer voz. Basta que você forneça uma certa quantidade de gravações (que, no caso de uma pessoa pública, são facilmente obtidas no YouTube).
E a voz forjada, ao contrário dos deepfakes de vídeo, pode se tornar uma realidade eleitoral. Isso já começou. Na primeira semana de outubro circulou no Facebook um áudio, atribuído ao candidato Ciro Gomes, no qual ele supostamente diz que as eleições presidenciais de 2022 seriam manipuladas e o Exército deveria dar um golpe de estado.
A gravação foi analisada por peritos da USP e das universidades federais do ABC e de São Carlos, que concluíram tratar-se de uma falsificação (3). Eles empregaram uma técnica chamada análise cepstral, que consiste em verificar a duração e a proporção das várias frequências de som na fala de uma pessoa.
O áudio foi comparado com um discurso real de Ciro, e o resultado mostrou uma similaridade de 47% com a voz dele – qualquer coisa abaixo de 80% significa falso.
A rigor, nem precisaria dessa análise: ouvindo a gravação, fica claro que se trata de alguém imitando a fala do candidato. É um trabalho tosco, que não chega nem perto do realismo assustador da Play.ht.
Mesmo assim, o áudio teve 1,3 milhão de acessos, 14 mil comentários, e foi compartilhado 66 mil vezes – um alcance muito maior do que qualquer deepfake de vídeo jamais teve. Ele é a prova de que áudios falsos funcionam.
Agora imagine o que poderia acontecer com gravações bem produzidas, geradas por algoritmos convincentes. Mais do que se espalhar nas redes sociais, elas poderiam ser usadas para tentar enganar a imprensa – que as usaria como supostas provas em reportagens.
Em 2017, o então presidente Michel Temer balançou no cargo após a divulgação de conversas dele gravadas pelo empresário Joesley Batista. E se alguém divulgasse diálogos similares, só que falsos?
A guerra das fake news, infelizmente, não vai terminar. Elas vieram para ficar. Como na guerra de fato, a tecnologia é uma peça-chave. Mas nem sempre a arma mais avançada é a mais eficaz. Tecnologia e malícia, em doses iguais, podem ser uma combinação bem mais destrutiva.
***
Fontes (1)Joe Rogan interviews Steve Jobs. Disponível em podcast.ai. (2) Detect and Locate: Exposing Face Manipulation by Semantic and Noise-Level Telltales. C Kong e outros, 2022. (3) É falso o áudio atribuído a Ciro Gomes sobre tomada de poder pelas Forças Armadas caso Lula seja eleito. Projeto Comprova, 2022.