Seperti hampir semua perusahaan teknologi lainnya yang ada, Adobe telah sangat mengandalkan AI selama beberapa tahun terakhir. Perusahaan perangkat lunak ini telah meluncurkan sejumlah layanan AI berbeda sejak 2023, termasuk Firefly—suite pembuatan media berbasis AI miliknya. Namun kini, pelukan penuh perusahaan terhadap teknologi ini mungkin telah menimbulkan masalah, karena sebuah gugatan baru mengklaim bahwa mereka menggunakan buku bajakan untuk melatih salah satu model AI-nya.
Sebuah gugatan class-action yang diusulkan atas nama Elizabeth Lyon, seorang penulis dari Oregon, mengklaim bahwa Adobe menggunakan versi bajakan dari banyak buku—termasuk bukunya sendiri—untuk melatih program SlimLM milik perusahaan tersebut.
Adobe menggambarkan SlimLM sebagai seri model bahasa kecil yang dapat “dioptimalkan untuk tugas bantuan dokumen pada perangkat seluler.” Adobe menyatakan bahwa SlimLM telah dilatih sebelumnya pada SlimPajama-627B, sebuah “dataset open-source multi-corpora yang telah dideduplikasi” yang dirilis oleh Cerebras pada Juni 2023. Lyon, yang telah menulis sejumlah buku panduan untuk penulisan non-fiksi, mengatakan bahwa beberapa karyanya termasuk dalam dataset pelatihan awal yang digunakan Adobe.
Gugatan Lyon, yang awalnya dilaporkan oleh Reuters, menyatakan bahwa tulisannya termasuk dalam subset terproses dari dataset yang dimanipulasi yang menjadi dasar program Adobe: “Dataset SlimPajama dibuat dengan menyalin dan memanipulasi dataset RedPajama (termasuk menyalin Books3),” demikian isi gugatan tersebut. “Jadi, karena merupakan salinan turunan dari dataset RedPajama, SlimPajama berisi dataset Books3, termasuk karya berhak cipta milik Penggugat dan anggota Kelas.”
“Books3”—sebuah koleksi besar berisi 191.000 buku yang telah digunakan untuk melatih sistem genAI—telah menjadi sumber masalah hukum yang berkelanjutan bagi komunitas teknologi. RedPajama juga telah disebutkan dalam sejumlah kasus litigasi. Pada bulan September, sebuah gugatan terhadap Apple mengklaim bahwa perusahaan tersebut telah menggunakan materi berhak cipta untuk melatih model Apple Intelligence miliknya. Litigasi tersebut menyebutkan dataset itu dan menuduh perusahaan teknologi tersebut menyalin karya yang dilindungi “tanpa izin dan tanpa kredit atau kompensasi.” Pada bulan Oktober, gugatan serupa terhadap Salesforce juga mengklaim bahwa perusahaan tersebut telah menggunakan RedPajama untuk tujuan pelatihan.
Sayangnya bagi industri teknologi, gugatan semacam itu kini telah menjadi hal yang cukup umum. Algoritma AI dilatih pada dataset besar dan, dalam beberapa kasus, dataset tersebut diduga termasuk materi bajakan. Pada bulan September, Anthropic setuju untuk membayar $1,5 miliar kepada sejumlah penulis yang menggugatnya dan menuduhnya menggunakan versi bajakan karya mereka untuk melatih chatbot-nya, Claude. Kasus ini dianggap sebagai titik balik potensial dalam pertempuran hukum yang sedang berlangsung terkait materi berhak cipta dalam data pelatihan AI, yang jumlahnya sangat banyak.
