Unos chats internos de Nvidia se habrían filtrado, revelando que la compañía habría utilizado videos de YouTube y Netflix para entrenar su IA.
Se ha desatado la polémica luego de que se filtrasen chats internos de Slack de la compañía, que fueron revelados por el sitio 404 Media. En los chats se puede ver algunas conversaciones entre los empleados y el proceso de entrenamiento de IA dentro del proyecto llamado “Cosmos”.
Este proceso consistía en descargar videos de Netflix y, principalmente, de YouTube para entrenar distintos sistemas de IA de Nvidia. Se menciona a 3D Omniverse como una de las herramientas que fueron entrenadas con este proceso.
Al parecer, las conversaciones fueron filtradas por un ex empleado de Nvidia (anónimo). Las conversaciones de Slack revelan que los empleados dentro del proyecto Cosmos debían usar el descargador de vídeos de YouTube de código abierto “yt-dlp” con máquinas virtuales para evitar los bloqueos de la plataforma. Sin embargo, esta no era la única fuente de videos, también se descargaban videos de Netflix y otras fuentes. Al parecer, existían entre 20 y 30 máquinas virtuales en Amazon Web Services para descargar videos, una cantidad que ascendían a 80 años de videos por día.
«Estamos ultimando la canalización de datos v1 y asegurando los recursos informáticos necesarios para construir una fábrica de datos de vídeo que pueda producir datos de entrenamiento diarios por valor de una experiencia visual de toda una vida humana», declaró en mayo Ming-Yu Liu, vicepresidente de Investigación de Nvidia y responsable del proyecto Cosmos, en un correo electrónico.
Hay una gráfica donde muestran que para finales de mayo se habían descargado 38,5 millones de videos, que ellos dividieron por categorías.
Empleados de Nvidia plantearon preguntas sobre el uso de recursos con derechos de autor para entrenar su IA en el canal de Slack, como podemos observar a continuación:
“Hola equipo. ¿Estamos usando https://research.google.com/youtube8m/download.html para descargar los videos? Si es así, ¿tenemos la aprobación legal para ello? En uno de los proyectos, el departamento legal se negó a usarlo porque la licencia de los videos individuales reemplaza la licencia compartida en YouTube”.
Respuesta de Min-Yu Liu:
“Esta es una decisión ejecutiva. Tenemos una aprobación general para todos los datos”, respondió Liu.
La compañía verde ha salido a responder estas dudas a 404 Media, donde dicen lo siguiente:
“Respetamos los derechos de todos los creadores de contenido y confiamos en que nuestros modelos y nuestros esfuerzos de investigación cumplen plenamente con la letra y el espíritu de la ley de derechos de autor”, dijo un portavoz de Nvidia a 404 Media en un correo electrónico. “La ley de derechos de autor protege expresiones particulares, pero no hechos, ideas, datos o información. Cualquiera es libre de aprender hechos, ideas, datos o información de otra fuente y utilizarlos para crear sus propias expresiones. El uso legítimo también protege la capacidad de utilizar una obra con un propósito transformador, como el entrenamiento de modelos”.
Google le respondió a 404 Media que el uso de videos de YouTube para entrenar una IA es una clara violación de los derechos de autor. Google enlazo a una publicación de Bloomberg del mes de abril, donde dejaron clara su posición cuando salió el caso de OpenAI entrenando a su inteligencia artificial Sora con videos de su plataforma.
Un portavoz de Netflix le dijo a 404 Media que ellos no tienen ninguna clase de acuerdo para utilizar su contenido para entrenar ninguna IA y que no permiten el “scraping”, que básicamente es utilizar herramientas o códigos para extraer contenido de un sitio.
Nvidia estaría cometiendo dos faltas aquí, una la de utilizar contenido con derechos de autor para entrenar a una IA, y la otra es la de hacer scraping de contenido de sitios web.
En este momento es difícil determinar si terminara en alguna demanda por parte de YouTube o Netflix hacia Nvidia, en un terreno donde hay muchos grises y no parece estar tan regulado, como es el caso de la IA y como se utiliza el contenido con derechos de autor. Os mantendremos al tanto de todas las novedades de este caso.
Asus ZenWiFi BT8 es un sistema Mesh Wi-Fi 7 el cual se sitúa por debajo…
Qualcomm anuncia nuevos SoC Snapdragon X, pero no se trata de una nueva generación, sino…
NVIDIA no solo da razones teóricas, sino fundamentos en forma de ofertas de todo GeForce…