Nvidia mostra modelo de IA que pode modificar vozes e gerar sons inéditos
Nvidia (NVDA.O), mostrou nesta segunda-feira um novo modelo de inteligência artificial para gerar música e áudio que pode modificar vozes e gerar novos sons – tecnologia voltada para produtores de música, filmes e videogames.
A Nvidia, maior fornecedora mundial de chips e softwares usados para criar sistemas de IA, disse que não tem planos imediatos de lançar publicamente a tecnologia, que ela chama de Fugatto, abreviação de Foundational Generative Audio Transformer Opus 1.
Ela se junta a outras tecnologias mostradas por startups como a Runway e players maiores como a Meta Platforms (META.O), abre uma nova abaque pode gerar áudio ou vídeo a partir de um prompt de texto.
A versão da Nvidia, sediada em Santa Clara, Califórnia, gera efeitos sonoros e música a partir de uma descrição de texto, incluindo sons novos, como o de uma trombeta latir como um cachorro.
O que o torna diferente de outras tecnologias de IA é sua capacidade de absorver e modificar áudio existente, por exemplo, pegando um verso tocado em um piano e transformando-o em um verso cantado por uma voz humana, ou pegando uma gravação de palavra falada e mudando o sotaque usado e o humor expresso.
“Se pensarmos em áudio sintético nos últimos 50 anos, a música soa diferente agora por causa dos computadores, por causa dos sintetizadores”, disse Bryan Catanzaro, vice-presidente de pesquisa de aprendizado profundo aplicado na Nvidia. “Acho que a IA generativa vai trazer novas capacidades para a música, para os videogames e para pessoas comuns que querem criar coisas.”
Enquanto empresas como a OpenAI negociam com estúdios de Hollywood sobre se e como a IA pode ser usada na indústria do entretenimento, a relação entre tecnologia e Hollywood ficou tensa, principalmente depois que a estrela de Hollywood Scarlett Johansson acusou a OpenAI de imitar sua voz.
O novo modelo da Nvidia foi treinado em dados de código aberto, e a empresa disse que ainda está debatendo se e como lançá-lo publicamente.
“Qualquer tecnologia generativa sempre traz alguns riscos, porque as pessoas podem usá-la para gerar coisas que preferiríamos que não fizessem”, disse Catanzaro. “Precisamos ter cuidado com isso, e é por isso que não temos planos imediatos para lançar isso.”
Os criadores de modelos de IA generativa ainda precisam determinar como evitar o abuso da tecnologia, como por exemplo, quando um usuário gera informações incorretas ou infringe direitos autorais ao gerar caracteres protegidos por direitos autorais.
OpenAI e Meta (META.O), abre uma nova abada mesma forma, não disseram quando planejam lançar ao público seus modelos que geram áudio ou vídeo.