Sólo quedaba la música por probar, y ahora me he puesto manos a la obra con AudioCraft de Meta.
AudioCraft consta de tres modelos: MusicGen , AudioGen y EnCodec. MusicGen, que se entrenó con música propiedad de Meta y con licencia específica, genera música a partir de entradas de usuario basadas en texto, mientras que AudioGen, que se entrenó en efectos de sonido públicos, genera audio a partir de entradas de usuario basadas en texto. Por último, EnCodec, que permite generar música de mayor calidad con menos artefactos.
Imagina a un músico profesional capaz de explorar nuevas composiciones sin tener que tocar una sola nota en un instrumento
Meta
«Creemos que MusicGen puede convertirse en un nuevo tipo de instrumento, al igual que los sintetizadores cuando aparecieron por primera vez», señala Meta en su blog.
¿Será tan simple como poner un prompt y listo? Sí
Al igual que en plataformas capaces de generar imágenes (Dall-E, Midjourney), o en chatbots conversacionales (ChatGPT), el usuario debe ingresar un prompt de texto y la herramienta se encarga del resto, así, como si tal cosa.
He entrado en MusicGen y tras un simple prompt (ver imagen), el resultado es el siguiente al pedirle algo de reggae:
De momento (estamos en los inicios), la IA genera 12 segundos de audio según interpreta nuestro prompt. Opcionalmente, se puede proporcionar un audio de referencia del que se extraerá una melodía más amplia. La IA intentará seguir tanto la descripción como la melodía proporcionada.
Como en todas estas IAs en dos minutos puedes hacer una prueba, luego refinar lo conseguido para crear aquello que tienes en mente llevará algún tiempo. ¿Adiós a los músicos? No parece, simplemente es una tecnología con la que habrá que trabajar.