Voicebox é capaz de clonar a voz de qualquer pessoa a partir de uma amostra minúscula, com apenas dois segundos de duração; Senado dos EUA pede explicações à empresa após vazamento de IA de linguagem
“Há muitas possibilidades excitantes para os modelos generativos de fala, mas devido aos potenciais riscos de mau uso, nós não estamos disponibilizando o modelo Voicebox ou seu código”, diz a Meta no texto de apresentação da nova IA, que é capaz de clonar a fala de qualquer pessoa com alta precisão.
Segundo a Meta, o algoritmo foi treinado em mais de 50 mil horas de gravações e audiobooks (em inglês, francês, espanhol, alemão, polonês e português), e gera resultados mais fidedignos do que outros algoritmos de síntese/clonagem vocal. Veja abaixo um exemplo:
Soa bem convincente. Mas o principal avanço da nova IA é que, ao contrário de suas antecessoras, ela não requer gravações longas: basta alimentar o software com dois segundos da voz de uma pessoa. Aí, você pode usar a ferramenta para fazê-la “dizer” qualquer coisa – é só digitar as frases.
Nesta página da Meta, há uma série de amostras de voz com 2 segundos – e, ao lado de cada uma, seu clone sintetizado pelo algoritmo. A semelhança é espantosa. E o Voicebox tem uma função ainda mais impressionante, chamada Style transfer: em vez de digitar as frases, você simplesmente fala com o algoritmo – e ele reproduz tudo, inclusive as pausas e entonações, na voz clonada da outra pessoa.
A empresa não diz quais seriam os “potenciais riscos” do Voicebox, mas eles são fáceis de enxergar. Alguém poderia usar a IA para gerar falsos grampos telefônicos, por exemplo, em que políticos e empresários travam diálogos totalmente fictícios – mas verossímeis o bastante para convencer a imprensa, desestabilizar governos e tumultuar eleições. A ferramenta também poderia ser usada na esfera privada, para forjar conversas e chantagear pessoas com a ameaça de divulgar as “gravações”.
A Meta está fazendo a coisa certa ao não liberar o Voicebox. Mas ela tem um histórico recente ruim no que diz respeito a isso. Em fevereiro, a empresa disponibilizou seu algoritmo de conversação LLaMA (Large Language Model Meta AI) de forma controlada, só para pesquisadores e pessoas autorizadas.
Mas aí, pouco tempo depois, o software “vazou” na internet – o que levou dois senadores dos EUA a pedirem explicações formais a Mark Zuckerberg sobre isso.
O LLaMA foi baixado e modificado por diversas pessoas, dando origem a uma série de descendentes. E isso traz novos riscos: se qualquer pessoa pode mexer no algoritmo, pode remover seus mecanismos de proteção (como não falar sobre temas considerados perigosos, não acessar outros sistemas ou não se auto-aperfeiçoar, por exemplo).
Os algoritmos de síntese vocal podem ter usos ainda mais nocivos. Tanto é assim que a Adobe, criadora do primeiro deles – o VoCo, demonstrado em 2016 – nunca o lançou.