Como prácticamente todas las demás empresas tecnológicas existentes, Adobe ha apostado fuertemente por la inteligencia artificial en los últimos años. La empresa de software ha lanzado varios servicios de IA desde 2023, incluyendo Firefly, su suite de generación de medios impulsada por IA. Sin embargo, ahora la total adopción de esta tecnología por parte de la compañía podría haberle traído problemas, ya que una nueva demanda afirma que utilizó libros pirateados para entrenar uno de sus modelos de IA.
Una demanda colectiva propuesta en nombre de Elizabeth Lyon, una autora de Oregón, afirma que Adobe utilizó versiones pirateadas de numerosos libros —incluyendo los suyos— para entrenar el programa SlimLM de la compañía.
Adobe describe SlimLM como una serie de pequeños modelos de lenguaje que pueden ser “optimizados para tareas de asistencia documental en dispositivos móviles”. Afirma que SlimLM fue preentrenado con SlimPajama-627B, un “conjunto de datos deduplicado, multi-corpus y de código abierto” lanzado por Cerebras en junio de 2023. Lyon, quien ha escrito varios libros guía sobre escritura de no ficción, dice que algunas de sus obras fueron incluidas en un conjunto de datos de preentrenamiento que Adobe utilizó.
La demanda de Lyon, que fue reportada originalmente por Reuters, sostiene que sus escritos fueron incluidos en un subconjunto procesado de un conjunto de datos manipulado que fue la base del programa de Adobe: “El conjunto de datos SlimPajama fue creado copiando y manipulando el conjunto de datos RedPajama (incluyendo la copia de Books3)”, dice la demanda. “Así, por ser una copia derivada del conjunto de datos RedPajama, SlimPajama contiene el conjunto de datos Books3, incluyendo las obras protegidas por derechos de autor de la demandante y los miembros de la clase.”
“Books3”—una enorme colección de 191.000 libros que se han utilizado para entrenar sistemas de genAI—ha sido una fuente constante de problemas legales para la comunidad tecnológica. RedPajama también ha sido citado en varios casos judiciales. En septiembre, una demanda contra Apple afirmó que la empresa había utilizado material protegido por derechos de autor para entrenar su modelo Apple Intelligence. El litigio mencionó el conjunto de datos y acusó a la empresa tecnológica de copiar obras protegidas “sin consentimiento y sin crédito ni compensación”. En octubre, una demanda similar contra Salesforce también afirmó que la empresa había utilizado RedPajama con fines de entrenamiento.
Desafortunadamente para la industria tecnológica, este tipo de demandas se han vuelto bastante comunes. Los algoritmos de IA se entrenan con conjuntos de datos masivos y, en algunos casos, esos conjuntos de datos supuestamente incluyen materiales pirateados. En septiembre, Anthropic acordó pagar 1.5 billones de dólares a varios autores que la habían demandado y acusado de usar versiones pirateadas de sus obras para entrenar su chatbot, Claude. El caso fue considerado un posible punto de inflexión en las batallas legales en curso sobre material protegido por derechos de autor en los datos de entrenamiento de IA, de las cuales hay muchas.
