Meta lancia AudioCraft, un generatore di musica AI open-source

Meta lancia AudioCraft, generatore musica AI open-source

Il nuovo generatore di musica basato sull’IA di Meta è l’ultimo di una serie di prodotti basati sull’IA recentemente lanciati dall’azienda tecnologica.

Mercoledì, Meta ha annunciato il rilascio di AudioCraft, un’IA generativa open-source che crea audio e musica a partire da prompt di testo. AudioCraft dispone di tre modelli, MusicGen per la composizione musicale, AudioGen per la creazione di effetti sonori ed EnCodec, che utilizza l’IA per assistere nella compressione audio che supera il formato MP3.

Nel caso vi chiedeste delle questioni di copyright, MusicGen è stato addestrato su musica di proprietà e con licenza Meta.

Meta sta spingendo aggressivamente per portare strumenti basati sull’IA alle masse, in competizione con OpenAI, Google e Microsoft. A luglio, ha rilasciato Llama 2, la nuova versione del suo LLM (large language model) open-source.

A differenza di GPT-4 di OpenAI e PaLM 2 di Google, Llama 2 è open-source, il che fa guadagnare punti a Meta tra gli sviluppatori ed eticisti che credono nella trasparenza dello sviluppo dell’IA. Ci sono anche voci su Meta che lancia “personas” basate sull’IA, alias chatbot per Instagram, Facebook e WhatsApp.

AudioCraft è stato progettato pensando a musicisti e designer del suono per “fornire ispirazione, aiutare le persone a brainstormare rapidamente e iterare sulle loro composizioni in nuovi modi”, ha dichiarato l’annuncio.

Gli esempi nel post del blog includono campioni audio dal prompt “fischiare con il vento che soffia” e “traccia pop dance con melodie orecchiabili, percussioni tropicali e ritmi vivaci, perfetta per la spiaggia”, che… suonano con successo come quelle descrizioni.

Gran parte degli sviluppi recenti nell’IA generativa si sono concentrati sulla generazione di testo e immagini, che è un processo più semplice.

La conversione da testo a audio è un’impresa più complicata che Meta sembra aver risolto. AudioCraft apprende i token audio dai segnali grezzi utilizzando il suo codec audio neurale proprietario EnCodec per creare un nuovo “vocabolario” per il modello.

Quindi addestra modelli di linguaggio su questo vocabolario audio in modo che il modello comprenda le associazioni tra audio e testo. Poiché AudioCraft è anche open-source, il codice è disponibile su GitHub per gli utenti che desiderano esplorarlo e testarlo da soli.