fbpx

Meta lança AudioCraft, IA generativa que cria músicas e sons a partir de textos

Imagem de: Instagram poderá ter recurso que avisa se conteúdo foi gerado por inteligência artificial

A Meta anunciou, nesta quarta-feira (02), o lançamento do AudioCraft, uma plataforma de inteligência artificial (IA) generativa que cria sons e músicas a partir de textos. A ferramenta está disponível para fins de pesquisa e será liberada para todos em breve.

De acordo com a big tech, o AudioCraft servirá para vários públicos. Músicos profissionais poderão explorar novas composições e batidas, desenvolvedores de jogos poderão criar efeitos sonoros e empreendedores poderão adicionar trilhas sonoras em suas publicações no Instagram, por exemplo.

As primeiras amostras de áudio divulgadas pela Meta mostram um pouco como a tecnologia funciona. O sistema criou áudios com qualidade a partir de inputs simples de textos como “Assobiando com vento soprando” e “Sirenes e um zumbido de motor se aproximam e passam”. Confira, abaixo, alguns dos resultados:

Além dos sons naturais, o AudioCraft criou batidas musicais, que são mais complexas. Em outra amostra, a Meta divulgou um trecho de 30 segundos que foi criado após o input do texto “faixa de dança pop com melodias cativantes, percussões tropicais e ritmos animados, perfeito para a praia”.

Em uma publicação em seu blog oficial, a companhia pontuou que a inovação é mais fácil de trabalhar do que outros modelos generativos para áudio. Apesar de não citar nominalmente, a empresa se referiu a iniciativas como o Jukebox, da OpenAI, e o MusicLM, do Google.

“Com o AudioCraft, simplificamos o design geral de modelos generativos para áudio em comparação com trabalhos anteriores no campo – dando às pessoas a receita completa para brincar com os modelos existentes que a Meta vem desenvolvendo nos últimos anos, além de capacitá-los a ultrapassar os limites e desenvolver seus próprios modelos”, diz trecho do texto.

Como o AudioCraft foi treinado?

O AudioCraft é composto por três modelos: MusicGen, AudioGen e EnCodec. O primeiro foi treinado com músicas licenciadas e de propriedade da Meta, e por isso gera músicas a partir de prompts de texto.

No caso do AudioGen, a IA foi treinada a partir de efeitos sonoros públicos, deixando a ferramenta apta para criar áudios como cantos de pássaros também a partir de prompts de texto.

Já o EnCodec é um decodificador de gravações sonoras que permite resultados de alta qualidade mesmo com arquivos comprimidos. Este modelo, anunciado no ano passado, recebeu melhorias.

Mesa de somO AudioCraft só precisa de inputs de texto para criar músicas, trilhas sonoras, sons naturais e mais

“O AudioCraft funciona para geração e compactação de música e som – tudo no mesmo lugar. Como é fácil construir e reutilizar, as pessoas que desejam construir melhores geradores de som, algoritmos de compressão ou geradores de música podem fazer tudo na mesma base de código e construir sobre o que outros já fizeram”, explicou a Meta.

Para melhorar as soluções, o AudioCraft está com código aberto para que pesquisadores e desenvolvedores possam ajudar a melhorar a ferramenta.

Veja a matéria original no R7

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

Este site utiliza o Akismet para reduzir spam. Fica a saber como são processados os dados dos comentários.