AudioCraft: Pesquisa de IA para áudio gerativo. Simplifique o design de modelos gerativos de áudio. Aprenda mais sobre MusicGen e AudioGen.

O que é o AudioCraft?

O AudioCraft é uma inovadora base de código única, criada com o objetivo de atender todas as suas necessidades de áudio geradas. Seja para a criação de música, efeitos sonoros ou compressão após treinamento em sinais de áudio brutos, o AudioCraft existe para simplificar suas necessidades de modelagem de áudio.

Desenvolvido pela pesquisa Meta AI, o AudioCraft é construído sobre dois pilares principais: o MusicGen e o AudioGen. Ambos são um Modelo de Linguagem autoregressivo (LM) único que opera em fluxos de representações musicais discretas comprimidas ou, como também são conhecidos, tokens. Dessa forma, introduzimos uma estratégia simples para alavancar a estrutura interna dos fluxos paralelos de tokens, o que permite modelar distrações de áudio de uma maneira eficiente.

Com o AudioCraft, é possível capturar dependências de longo prazo no áudio e gerar áudio de alta qualidade. Para isso, é utilizado o codec de áudio neural EnCodec, que ensina o modelo como aprender os tokens de áudio a partir da forma de onda de áudio bruta. Depois que o EnCodec mapeia o sinal de áudio para um ou vários fluxos paralelos de tokens discretos, é recursivamente modelado em um único modelo de linguagem autoregressiva. O resultado final é o sinal de áudio mapeado de volta para o espaço de áudio, obtendo a forma de onda de saída.

Como usar o AudioCraft: Guia passo a passo para acessar a ferramenta

Embora a interface do AudioCraft seja intuitiva e amigável, preparamos um guia prático para auxiliar você nessa descoberta:

Primeiro, acesse o AudioCraft através do link disponibilizado na página inicial;
Uma vez na página do projeto, você encontrará as opções para explorar o código e conhecer mais sobre os modelos MusicGen e AudioGen;
Clicando em "Ir para o código", você será redirecionado para o GitHub, onde poderá clonar ou fazer o download do projeto;
Em seguida, é hora de explorar o modelo. Aqui, você pode usar um modelo de condicionamento diferente para controlar a geração, como usando um codificador de texto pré-treinado para aplicações de texto para áudio.
Mas o AudioCraft não se resume a isso. Ele também tem um gerador de texto para som, onde o AudioGen aprende a produzir áudio a partir de sons ambientais, e um de texto para música, onde o MusicGen produz amostras de música diversas e longas a partir de entradas de texto fornecidas pelo usuário.

Casos de uso do AudioCraft

O AudioCraft não é apenas uma ferramenta, mas um conjunto de ferramentas projetadas para atender a uma variedade de necessidades. Abaixo estão os representativos casos de uso para o AudioCraft:

Compressão de áudio: O AudioCraft é uma ferramenta poderosa para a compressão de áudio, oferecendo a capacidade de comprimir sinais de áudio de alta qualidade sem perda de detalhes.
Geração de música: Com o MusicGen, o AudioCraft torna possível criar música a partir de texto, abrindo um leque de possibilidades para músicos e criadores de conteúdo.
Geração de efeitos sonoros: O AudioGen oferece a possibilidade de criar um amplo espectro de efeitos sonoros a partir do texto, facilitando a vida dos desenvolvedores de jogos e cineastas.

Funcionalidades AudioCraft

MusicGen
O MusicGen é uma ferramenta que permite a geração de música de alta qualidade a partir de inputs de texto, atendendo as necessidades de quem precisa de áudio único e personalizado.
AudioGen
Permite a produção de sons ambientais a partir de texto. É ideal para usuários que precisam de sons específicos para projetos audiovisuais.
EnCodec
EnCodec é um codec de áudio neural usado para aprender tokens de áudio discretos a partir da forma de onda bruta. Isso ajuda a produzir áudio de alta qualidade.
Text-to-sound
Produz áudio de sons ambientais a partir de texto, tornando mais fácil para os usuários criar sons ambientais personalizados.

Text-to-music
Funcionalidade que gera músicas diversas e longas a partir de inputs de texto do usuário, proporcionando criação de música personalizada.
Modelagem autoregressiva
Esta funcionalidade permite modelar eficientemente sequências de áudio, captando dependências de longo prazo no áudio, o que é crucial para a qualidade do áudio gerado.
Tokens Interleaved
Abordagem inovadora para aproveitar a estrutura interna das streams paralelas de tokens, permitindo alta qualidade e eficiência no modelamento de áudio.
Modelos de condicionamento
Permitem controlar a geração de áudio, como usar um codificador de texto pré-treinado para aplicações de texto para áudio, proporcionando maior flexibilidade aos usuários.

AudioCraft

Gerar Áudio de Forma Avançada com Inteligência Art

O que é o AudioCraft?

Como usar o AudioCraft: Guia passo a passo para acessar a ferramenta

Casos de uso do AudioCraft

Funcionalidades AudioCraft

MusicGen

AudioGen

EnCodec

Text-to-sound

Text-to-music

Modelagem autoregressiva

Tokens Interleaved

Modelos de condicionamento

Similares a AudioCraft