A NVIDIA apresentou o Fugatto, um modelo de inteligência artificial concebido para gerar e modificar sons, vozes e música a partir de descrições em texto e entradas de áudio.
Destinado a profissionais da música, cinema e videojogos, este modelo representa um avanço significativo na forma como o áudio pode ser manipulado e criado.
Funcionalidades e aplicações do Fugatto
O Fugatto, acrónimo de Foundational Generative Audio Transformer Opus 1, distingue-se pela sua capacidade única de transformar qualquer combinação de sons descritos através de prompts de texto.
Entre as suas funcionalidades, destaca-se a possibilidade de criar trechos musicais com base em descrições textuais, adicionar ou remover instrumentos de uma composição existente e alterar o sotaque ou a emoção de uma voz. Além disso, o modelo permite a produção de sons inéditos, expandindo as fronteiras da criatividade sonora.
Este modelo utiliza uma técnica denominada ComposableART, que possibilita a combinação de instruções que foram treinadas separadamente. Isto permite um controlo refinado sobre as características do áudio gerado, como a intensidade de um sotaque ou o grau de emoção numa voz.
O Fugatto foi treinado com 2,5 mil milhões de parâmetros em sistemas NVIDIA DGX equipados com GPUs NVIDIA H100 Tensor Core, demonstrando a escala e complexidade do projeto.
Desafios e considerações éticas
Apesar do potencial transformador do Fugatto, a NVIDIA não tem planos imediatos para o disponibilizar publicamente. Bryan Catanzaro, vice-presidente de investigação em deep learning da empresa, sublinhou a necessidade de cautela devido aos riscos associados ao uso indevido da tecnologia, como a geração de desinformação ou a violação de direitos de autor. “Qualquer tecnologia generativa acarreta riscos porque pode ser utilizada para fins que preferíamos evitar”, afirmou.
A equipa responsável pelo desenvolvimento do Fugatto é composta por investigadores de diversas partes do mundo, incluindo Índia, Brasil, China, Jordânia e Coreia do Sul. Este esforço colaborativo contribuiu para as capacidades multilingues e a variedade de sotaques que o modelo pode reproduzir. Contudo, a criação de um conjunto de dados diversificado para o treino do modelo foi um dos maiores desafios enfrentados pela equipa.
Impacto no setor criativo
Profissionais da indústria musical, como o produtor e compositor Ido Zmishlany, veem no Fugatto uma ferramenta com potencial para revolucionar a forma como a música é produzida. “A história da música é também uma história de tecnologia. Com a IA, estamos a escrever o próximo capítulo da música. Temos um novo instrumento, uma nova ferramenta para fazer música, e isso é entusiasmante”, referiu Zmishlany.
Além da música, o Fugatto pode ter aplicações em áreas como a publicidade, permitindo adaptar campanhas a diferentes regiões ou públicos através da modificação de vozes e emoções. No campo dos videojogos, pode ser utilizado para criar ou modificar assets sonoros em tempo real, enriquecendo a experiência do utilizador.
Enquanto o setor continua a explorar as possibilidades oferecidas pela inteligência artificial generativa, empresas como a NVIDIA, OpenAI e Meta Platforms mantêm uma abordagem cautelosa quanto ao lançamento público destas tecnologias.
O equilíbrio entre inovação e responsabilidade ética permanece no centro do debate sobre o futuro destas ferramentas.
Outros artigos interessantes:
- Estes são os primeiros Xiaomi a receber o novo HyperOS 2
- Google e Microsoft em guerra na cloud europeia
- Google Pixel 9 com desconto de 150€ na Cyber Monday