Investigadores de Meta, la empresa matriz de Facebook, han desarrollado un generador de música AI llamado MusicGen.


Fuente: Music Business Worlwide / Tradución: Mr SH0W


Puede tomar indicaciones de texto como, por ejemplo, «folk acústico animado» o «pista de baile pop con melodías pegadizas» y convertirlas en nuevos clips de música de 12 segundos
Photo by Pixabay on Pexels.com

El dato de la semana de MBW es una serie en la que destacan un punto de datos que merece la atención de la industria musical global. El dato de la semana cuenta con el apoyo de Cinq Music Group, una discográfica impulsada por tecnología, una empresa de distribución y gestión de derechos.

Investigadores de Meta, la empresa matriz de Facebook, han desarrollado un generador de música AI llamado MusicGen. El modelo de lenguaje, descrito por el equipo de Investigación de IA Fundamental (FAIR) de Meta como «un modelo simple y controlable para la generación de música», puede tomar indicaciones de texto como, por ejemplo, «folk acústico animado» o «pista de baile pop con melodías pegadizas» y convertirlas en nuevos clips de música de 12 segundos.

Meta afirma que utilizó 20.000 horas de música con licencia para entrenar MusicGen, que incluía 10.000 pistas de música con licencia de «alta calidad» y, según TechCrunch, 390.000 pistas solo de instrumentos de ShutterStock y Pond5.

La entrada de Meta en el mundo de la inteligencia artificial de texto a música marca un momento significativo en este espacio de rápido movimiento, convirtiéndose en la última gran empresa tecnológica, después de Google, en desarrollar su propio modelo de lenguaje que puede generar nueva música a partir de indicaciones de texto.

Google presentó MusicLM, una herramienta de IA experimental que puede generar música de alta fidelidad a partir de indicaciones de texto y tarareos, en enero, y la puso a disposición del público el mes pasado.

Photo by Deepanker Verma on Pexels.com

Google explica que, a nivel de uso público, su herramienta MusicLM funciona escribiendo una indicación como «jazz conmovedor para una cena». El modelo de MusicLM creará entonces dos versiones de la canción solicitada para la persona que ingresó la indicación. Luego puedes votar por cuál prefieres, lo que, según Google, «ayudará a mejorar el modelo de IA». El modelo de Google se entrenó con cinco millones de clips de audio, lo que equivale a 280.000 horas de música a 24 kHz.

El informe de The Decoder señala que «en comparación con otros modelos de música como Riffusion, Mousai, MusicLM y Noise2Music, MusicGen se desempeña mejor en métricas objetivas y subjetivas que evalúan qué tan bien la música coincide con la letra y qué tan plausible es la composición».


Gabriel Synnaeve

Según Gabriel Synnaeve, científico de investigación de Facebook, quien anunció la publicación de la investigación a través de LinkedIn durante el fin de semana, Meta ha publicado «código (MIT) y modelos preentrenados (CC-BY no comercial) de forma pública para la investigación abierta, la reproducibilidad y para que la comunidad musical en general pueda investigar esta tecnología».

Los investigadores de Meta también han publicado un documento en el que detallan el trabajo realizado para entrenar el modelo. En el documento, describen los desafíos éticos en torno al desarrollo de modelos de IA generativa. Según el documento, el equipo de investigación «se aseguró primero de que todos los datos con los que entrenamos estuvieran cubiertos por acuerdos legales con los titulares de los derechos, en particular a través de un acuerdo con ShutterStock».

«LOS MODELOS GENERATIVOS PUEDEN REPRESENTAR UNA COMPETENCIA DESLEAL PARA LOS ARTISTAS, LO CUAL ES UN PROBLEMA ABIERTO.»


El documento añade: «Un segundo aspecto es la posible falta de diversidad en el conjunto de datos que utilizamos, que contiene una proporción mayor de música de estilo occidental.

«Sin embargo, creemos que la simplificación que llevamos a cabo en este trabajo, por ejemplo, utilizando un modelo de lenguaje de una sola etapa y un número reducido de pasos autorregresivos, puede ayudar a ampliar las aplicaciones a nuevos conjuntos de datos».

Otro desafío destacado en el documento es que «los modelos generativos pueden representar una competencia desleal para los artistas, lo cual es un problema abierto».

El documento añade: «La investigación abierta puede garantizar que todos los actores tengan igual acceso a estos modelos. A través del desarrollo de controles más avanzados, como la condicionante de la melodía que hemos introducido, esperamos que estos modelos sean útiles tanto para aficionados como para profesionales de la música».

La noticia de la investigación musical de inteligencia artificial de Meta llega en un momento de creciente inquietud en torno al uso de la IA generativa en la industria musical, debido a problemas de infracción de derechos de autor y la vasta oferta diaria de contenido a los DSP.

En abril, producciones de música generada por IA que imitaban las voces de artistas superestrella acapararon titulares después de que una canción llamada «heart on my sleeve», con voces generadas por IA que imitaban las voces de Drake y The Weeknd, se volviera viral. La canción, subida por un artista llamado ghostwriter, fue eliminada posteriormente de plataformas como YouTube, Spotify y otras. En YouTube, una confirmación de lo que provocó la eliminación de la canción apareció en la página de inicio de la subida de YouTube ahora desactivada de ghostwriter.

Decía: «Este video ya no está disponible debido a una reclamación de derechos de autor de Universal Music Group».


Hablando en la llamada de ganancias del primer trimestre de Universal Music Group en abril, Sir Lucian Grainge, CEO y presidente de Universal Music Group, señaló que: «A diferencia de sus predecesores, gran parte de la última IA generativa [es decir, el ‘falso Drake’] se entrena con material con derechos de autor, lo que viola claramente los derechos de los artistas y los sellos y pondrá a las plataformas completamente en contra de las asociaciones con nosotros y nuestros artistas y los que impulsan el éxito».

En sus comentarios iniciales a los analistas en esa misma llamada, Sir Lucian Grainge también criticó la «sobreoferta de contenido» que actualmente hace que se distribuyan alrededor de 120.000 canciones al día en los servicios de transmisión de música.

«No mucha gente se da cuenta de que la IA ya ha sido una contribuidora importante a esta sobreoferta de contenido», dijo Grainge. «La mayor parte de este contenido de IA en DSP proviene de la generación anterior de IA, una tecnología que no se entrena con propiedad intelectual con derechos de autor y que produce una calidad muy pobre sin prácticamente ningún atractivo para el consumidor».

El surgimiento de plataformas de IA que permiten a los usuarios crear grandes volúmenes de canciones con solo presionar un botón también ha expuesto el potencial de que la IA generativa se utilice para el fraude en la transmisión. A través de aplicaciones de música generativa de IA, los estafadores pueden crear grandes volúmenes de contenido de audio y subirlos a DSP con el objetivo de acumular un gran número de reproducciones de este contenido a través de «granjas de reproducción» impulsadas por bots.

En abril, Spotify eliminó un número considerable de canciones, muchas de ellas creadas a través de la plataforma de creación de música con IA Boomy, de su servicio, citando «posibles casos de manipulación de reproducciones» (no se sugirió que Boomy en sí fuera responsable de la «manipulación de reproducciones» en cuestión).

En enero, informamos sobre un estudio francés reciente que muestra que hasta el 3% de las transmisiones de música en servicios como Spotify se sabe que son fraudulentas.

La semana pasada, el servicio de transmisión de música con sede en Francia, Deezer, presentó una estrategia para abordar tanto el aumento de la música de IA como la actividad fraudulenta en la transmisión en su plataforma.

El anuncio de Deezer siguió a los comentarios sobre la IA realizados por Jeronimo Folgueira, CEO de Deezer, a los analistas en la llamada de ganancias del primer trimestre de la empresa en abril, cuando dijo que «queremos brindar a nuestros clientes una experiencia de alta calidad y contenido relevante, por lo que inundar nuestro catálogo con IA no es algo que nos entusiasme mucho, y estamos trabajando en eso».

En esa misma llamada, sin embargo, Folgueira reveló que Deezer ha utilizado la IA para generar contenido para su aplicación de bienestar recién lanzada, Zen by Deezer, que ofrece música y contenido de audio para ayudar al sueño, la relajación y la meditación. Varias entidades en la industria de la música también están adoptando tecnología de música de IA para diversas aplicaciones.

Por ejemplo, la cantante, compositora y productora discográfica canadiense Grimes lanzó un nuevo proyecto de IA en fase beta el mes pasado, invitando a los usuarios a crear canciones utilizando su voz a cambio de un 50% de los derechos de grabación maestra. El lunes (12 de junio), TuneCore, una distribuidora de música propiedad de Believe, anunció que se ha asociado con CreateSafe y Grimes para permitir que los artistas de TuneCore distribuyan colaboraciones creadas a través de la IA de Elf.Tech de Grimes a todas las principales plataformas de transmisión.

El mes pasado, la gigante del entretenimiento con sede en Corea del Sur, HYBE, lanzó un nuevo sencillo llamado «Masquerade», que HYBE afirmó ser la «primera canción multilingüe producida en coreano, inglés, japonés, chino, español y vietnamita».

Según HYBE, el artista detrás de la canción, MID-AIR, es un «colectivo de IA musical que integra tecnologías avanzadas de IA y big data».

La canción fue producida utilizando IA generativa y colaboración con compositores humanos, y fue lanzada a través de la subsidiaria de distribución de HYBE, ONEUS, que se lanzó en mayo.