Meta lança AudioCraft, IA generativa que cria músicas e sons a partir de textos
A Meta anunciou, nesta quarta-feira (02), o lançamento do AudioCraft, uma plataforma de inteligência artificial (IA) generativa que cria sons e músicas a partir de textos. A ferramenta está disponível para fins de pesquisa e será liberada para todos em breve.
De acordo com a big tech, o AudioCraft servirá para vários públicos. Músicos profissionais poderão explorar novas composições e batidas, desenvolvedores de jogos poderão criar efeitos sonoros e empreendedores poderão adicionar trilhas sonoras em suas publicações no Instagram, por exemplo.
As primeiras amostras de áudio divulgadas pela Meta mostram um pouco como a tecnologia funciona. O sistema criou áudios com qualidade a partir de inputs simples de textos como “Assobiando com vento soprando” e “Sirenes e um zumbido de motor se aproximam e passam”. Confira, abaixo, alguns dos resultados:
Além dos sons naturais, o AudioCraft criou batidas musicais, que são mais complexas. Em outra amostra, a Meta divulgou um trecho de 30 segundos que foi criado após o input do texto “faixa de dança pop com melodias cativantes, percussões tropicais e ritmos animados, perfeito para a praia”.
Em uma publicação em seu blog oficial, a companhia pontuou que a inovação é mais fácil de trabalhar do que outros modelos generativos para áudio. Apesar de não citar nominalmente, a empresa se referiu a iniciativas como o Jukebox, da OpenAI, e o MusicLM, do Google.
“Com o AudioCraft, simplificamos o design geral de modelos generativos para áudio em comparação com trabalhos anteriores no campo – dando às pessoas a receita completa para brincar com os modelos existentes que a Meta vem desenvolvendo nos últimos anos, além de capacitá-los a ultrapassar os limites e desenvolver seus próprios modelos”, diz trecho do texto.
Como o AudioCraft foi treinado?
O AudioCraft é composto por três modelos: MusicGen, AudioGen e EnCodec. O primeiro foi treinado com músicas licenciadas e de propriedade da Meta, e por isso gera músicas a partir de prompts de texto.
No caso do AudioGen, a IA foi treinada a partir de efeitos sonoros públicos, deixando a ferramenta apta para criar áudios como cantos de pássaros também a partir de prompts de texto.
Já o EnCodec é um decodificador de gravações sonoras que permite resultados de alta qualidade mesmo com arquivos comprimidos. Este modelo, anunciado no ano passado, recebeu melhorias.
O AudioCraft só precisa de inputs de texto para criar músicas, trilhas sonoras, sons naturais e mais
“O AudioCraft funciona para geração e compactação de música e som – tudo no mesmo lugar. Como é fácil construir e reutilizar, as pessoas que desejam construir melhores geradores de som, algoritmos de compressão ou geradores de música podem fazer tudo na mesma base de código e construir sobre o que outros já fizeram”, explicou a Meta.
Para melhorar as soluções, o AudioCraft está com código aberto para que pesquisadores e desenvolvedores possam ajudar a melhorar a ferramenta.
Veja a matéria original no R7