The Atlantic utiliza una base de datos de música con capacidad de búsqueda para entrenar la IA. creado

atlántico El reportero Alex Reisner reveló recientemente cuatro conjuntos de datos ser música para entrenar Ejemplos de IA y el los hizo totalmente buscable para el público Dos de los recintos son absolutamente enormes con 12 millones y 9 millones de pistas. Los otros dos son mucho más pequeños, pero aún representan una cantidad significativa de datos de entrenamiento, más de 100.000 canciones cada uno.
Según Reisner, existen miles de miles de descargas y si bien es imposible saber exactamente quién las utilizó; Google y Estabilidad Ambos han sido confirmados en artículos de investigación. Algunas de las fuentes, como Archivo de música gratuito conjunto de datos, de transmisión gratuita para uso personal, pero requiere una licencia para aplicaciones comerciales.
Si bien, en teoría, los conjuntos de datos están disponibles en Internet, configurarlos para el entrenamiento no es tan simple como recuperar un archivo ZIP y alimentarlo a un modelo de IA. Como explica Reisner:
Tres de los conjuntos de datos que encontré estaban distribuidos en una lista de enlaces a canciones en YouTube o Spotify. Los desarrolladores de IA reciben el mismo audio utilizando herramientas que automatizan el trabajo, algunas de las cuales permiten a los desarrolladores evitar inicios de sesión, cuentas y dispositivos que podrían generar dinero o suscriptores para los creadores. Estas herramientas violan los términos de servicio de estas plataformas.