Visitei na recentemente a exposição Eu, Ayrton, no Shopping Villa Lobos, em São Paulo, dedicada à vida de Ayrton Senna. O primeiro ambiente da exposição é a sala da imagem abaixo. Os visitantes são recebidos por um áudio de boas-vindas do próprio Senna, que fala um pouco da sua vida e um pouco da exposição. Pelo próprio conteúdo do áudio, é impossível que aquilo tivesse sido gravado por ele ainda em vida. Senna morreu em 1994.
Então, um funcionário ali presente explica que o áudio replicando a voz do Senna foi criado por meio de inteligência artificial (IA). Essa ação me impressionou duplamente:
- Como fã do Senna que sou desde os anos 80, senti certa emoção ao ouvir sua voz, como se ele estivesse vivo hoje. É uma sensação de saudade, com quase alegria, difícil de explicar, como quando você descobre uma foto inédita de um parente que morreu há muito tempo.
- Como profissional de marketing, constatei uma forma de usar a tecnologia aliada ao marketing — que é o conceito do martech — para provocar algum tipo de emoção nas pessoas, como aquela que eu mesmo senti.
Iniciativas similares
Reproduzir a voz de pessoas de forma artificial gera uma oportunidade de marketing para as empresas. Muitas vezes, o desafio delas é gerar uma conexão emocional com o público. Quando dar vida a vozes de pessoas for impossível, a IA resolve o problema. Foi assim não apenas no caso do Senna, mas também numa ação realizada pelo Flamengo em parceria com o Mercado Livre.
Durante sua carreira, o ex-jogador Zico fez 334 gols no Maracanã. Porque tinha problemas cardíacos, seu pai, José Antunes Coimbra, que morreu em 1986, não conseguiu ver nenhum desses gols in loco. A empresa Soundthinkers, então, usou a tecnologia para recriar a voz do pai de Zico e o Mercado Livre a usou no vídeo do Dia dos Pais de 2021.
Não importa se você gosta de futebol ou não, se é flamenguista ou não: há grande chance de o vídeo ter em alguma medida emocionado você. Porque a emoção que o Zico sentiu no vídeo deve ter sido igual àquela minha (da saudade com quase alegria) elevada à enésima potência. E não tem jeito: esse calor passa para quem está assistindo.
Perceba que isso é o martech na prática. Tecnologia e marketing se unem, alcançando um objetivo da empresa.
Como é feito e quem faz?
Clonar vozes é uma tecnologia em desenvolvimento. O The Verge explica que “redes neurais podem ser treinadas em dados não estruturados da voz de uma pessoa para gerar um áudio bruto de alguém falando”. Esse é o princípio básico de como funciona a clonagem de voz de uma pessoa.
Embora não seja uma tecnologia antiga, ela começou a ser desenvolvida ainda na década passada. Em 2017, o site especializado em ciência Scientific American já apresentava iniciativa de uma start-up canadense então chamada Lyerbird, que tinha como propósito fazer esse jogo de imitação. De lá para cá, as coisas evoluíram.
Hoje, ao pesquisar no Google por termos como “AI voice synthesis”, “AI voice deepfakes”, “AI voice clone” que você já vai encontrar empresas oferecendo serviços nesse sentido.
Há desde serviços mais simples e baratos até os mais sofisticados. Por exemplo, é possível usar vozes mapeadas para gerar áudios a partir de textos que você digita. É o caso da Resemble, que oferece serviço freemium com a versão paga custando a partir de US$ 30 por mês. Nessa opção, você tem vozes padronizadas — em português, inclusive.
Fiz um teste gratuito e obtive o seguinte resultado com a voz da locutora artificial Mariana:
Sejamos francos: o teste da Mariana não impressiona muito porque é parecido com aquilo que você encontra quando usa o Google Translator, por exemplo. Digita o texto, clica no botão de áudio e a voz do Google lê o texto para você. É um tanto trivial.
Mas atenção: não pense que a tecnologia dos serviços disponíveis no mercado só avançou até esse ponto. A própria Resemble permite que você crie vozes personalizadas em planos mais caros, cujos preços só são revelados depois de contatar a empresa. Direitos autorais à parte, você consegue, por exemplo, extrair a voz do Ayrton Senna, do Zico ou do Bob Esponja e colocá-la para proferir o texto que você bem entender.
A concorrente da Resemble, chamada Respeecher, faz uma demonstração de como funciona essa opção de voz personalizada. No vídeo abaixo, é feita a clonagem da voz de Barack Obama. Se você não for fluente em inglês, não perca tempo tentando entender o que é dito. Apenas preste atenção à voz do apresentador, que a partir de certo ponto começa a falar exatamente como o ex-presidente dos Estados Unidos.
Se essa possibilidade surpreendeu você, saiba que, quando os primeiros experimentos estouraram nos Estados Unidos, impressionaram os americanos também. Um vídeo cômico foi postado no YouTube com a voz falsificada de Joe Rogan em 2020. Nele, o mais popular podcaster americano anunciava que decidiu patrocinar um time de hóquei no gelo formado por chimpanzés.
O vídeo deixa claro que é falso e que tudo foi criado usando inteligência artificial para reproduzir a voz de Joe Rogan. Até a data de publicação deste post, em novembro de 2021, tinha tido mais de 3,3 milhões de visualizações.
Ao mesmo tempo em que gera uma oportunidade de marketing, essa possibilidade de clonagem de voz carrega consigo uma preocupação com fake news, é claro. Não vou entrar nessa discussão porque ela é extensa e, no fundo, não é muito diferente do que já se tem visto por aí com textos e imagens falsificados. Além disso, foge ao tema do martech, que é o propósito central do que tratamos neste post. Mas que o marketing vai poder usar essa tecnologia a seu favor, disso eu não tenho dúvida.∞