生成式人工智能公司官司不断技术创新与法律如何再平衡

　　DeepSeek的横空出世，再一次打开了人们对生成式人工智能(以下简称生成式AI产业发展的想象空间。生成式AI可能影响哪些行业？可能如何影响个人的学习和生活？这是当下很多人都在思考和关心的问题。也是导致DeepSeek经常服务器繁忙的重要原因。

　　不过，生成式AI方兴未艾之际，很多法律纠纷也接踵而至。比如，国际上很多著名的生成式AI企业近两年频频遭遇著作权纠纷。从这些纠纷及法律判决中，我们不仅可以洞悉生成式AI对法律的影响，而且可以分析成熟市场经济体的法院对生成式AI纠纷的判决思路和态度。这些对于我国AI产业的发展有重要的借鉴意义。

　　生成式AI著作权纠纷中，原告的诉求与被告的抗辩

　　如果用专业的语言描述，生成式AI的工作过程基本上包括三个步骤，即训练数据、交互数据和生成数据。

　　如果用通俗的语言描述，以上三个步骤大致是这样的：生成式AI通过输入海量的数据，对这些数据进行训练，把训练后的数据存放在自己的“数据仓库”里。

　　然后，生成式AI面对各种用户，和客户进行交流。用户提出问题，生成式AI把问题和自己“数据仓库”里的数据比对后，通过模型的运行，给用户输出答案。

　　答案可以有各种表现形式。比如，有的答案是音乐，有的答案是图片，还有的答案是文字。

　　生成式AI运行过程的三个步骤，都可能产生著作权纠纷。这些著作权纠纷中，原告基本上援引传统著作权侵权的基本法律要件提出控告。即，被告未经允许使用原告受著作权保护的作品，给原告造成损失。

　　比如，不久前，印度的亚洲新闻国际通讯社(ANI，向印度德里法院提起针对OpenAI的侵权诉讼。ANI指控OpenAI未经许可使用其新闻内容，侵犯其著作权。ANI请求法院判令OpenAI赔偿损失并永久禁止OpenAI使用其内容。

　　显然，根据ANI的指控， OpenAI在训练数据的过程中可能使用了ANI创作的内容。作为一家媒体，ANI及其工作人员在新闻制作过程中搜集了很多信息，经过加工，形成文章或新闻报道。这些文章或新闻报道，成为OpenAI等生成式AI训练数据的重要来源。

　　ANI不是起诉OpenAI的第一家媒体。此前，纽约时报以及原始故事媒体(Raw Story Media等媒体公司，也对OpenAI提起著作权侵权诉讼。

　　纽约时报指控OpenAI用其发表的文章训练数据构成侵犯著作权。原始故事媒体和另外一家公司联合起诉OpenAI。他们起诉的理由稍有不同。他们认为，OpenAI在训练数据时用了他们的文章等内容，却“擦掉(scrape”作者、文章名称、著作权保护标记等。

　　还有的原告指控：生成式OpenAI的生成数据，和他们的作品具有著作权法上所规定的“相似”性。因为符合著作权法上的“相似”性，就可以证明被告抄袭或剽窃了原告的作品。

　　比如，2023年1月，几位视觉艺术家向Stability AI、Midjourney等四家公司提起集体诉讼，指控被告侵犯其版权。原告认为，这四家公司的人工智能生成作品与他们的原作品极其相似，因而指控被告未经其允许使用其受版权保护的作品，构成侵犯版权。

　　再比如，2023年7月，一位叫Richard Kadrey的作家起诉Meta公司，指控Meta公司用人工智能生成的内容与其作品极其相似，因而指控后者侵犯其版权和署名权，并损害其作为创造者的名誉。

　　面对这些指控，作为被告的人工智能公司往往援引著作权法中的“合理使用”原则。如何证明自己的行为构成 “合理使用”，则依据具体的场景有不同的理由。

　　比如，针对ANI的指控，OpenAI抗辩认为，其使用的数据是公共领域的数据。从公共领域获取数据并训练模型，属于合理使用。

　　再比如，针对Richard Kadrey指控其剽窃自己的作品，Meta公司抗辩认为，自己的人工智能输出的作品与原告的作品相似是偶然现象，两者不存在直接的复制关系，因而不构成侵权。而且，生成式OpenAI创作的作品，在很多方面相对原来的作品都发生转换性改变(transformative，所以，属于合理使用。

　　这里有必要简单解释一下转换性改变。所谓转换性改变，即对原作品的使用不仅仅是简单复制或再现，而是通过增加新的表达、意义、目的或功能，使原作品具有新的价值或用途。

　　此外，还有一个值得注意的问题是，当生成式AI业务跨越国境时，会产生国际诉讼。在国际诉讼中，被告经常援引的另一个抗辩理由是管辖权。

　　比如，OpenAI就在前述应对ANI的诉讼中提出，OpenAI的服务器不在印度境内，数据加工及使用的行为都不在印度境内。根据侵权法的基本原理，侵权行为地法院对侵权纠纷享有管辖权。印度法院不是侵权行为地法院，因而没有管辖权。

　　生成式AI著作权纠纷中，法院的判决思路和态度

　　面对生成式AI著作权纠纷，总体上，法院倾向于保护技术创新，防止过于频繁的诉讼成本妨碍生成式AI的发展。

　　比如，在原始故事媒体(Raw Story Media公司诉OpenAI案件中，原告认为，OpenAI用于训练数据的很多来源于互联网上的数据。而这些互联网上的数据中就有来自原告的文章、新闻报道等。

　　原告指控，OpenAI在训练数据的过程中，把这些文章、新闻报道中的作者名字、文章标题、著作权信息等删掉，装进训练模型。最后，在生成的数据中没有作者名字、文章标题、著作权信息等，类似于传统著作权侵权中的洗稿、剽窃等行为。

　　根据以上事实，原告请求法院判令被告赔偿损失，停止侵权。

　　法院的推理是，原告必须证明其受到的损害是具体的，而不是抽象的。原告只是指控被告在训练数据中把这些文章、新闻报道中的作者名字、文章标题、著作权信息等删掉，但没有拿出证据证明其遭受了具体的损失。

　　法院认为，如果某一指控没有建立在具体的损失之上，则原告是没有起诉资格的(standing。

　　法官进一步论证，原告没有资格提起损害赔偿诉讼，更没有资格要求被告停止侵权。

　　笔者以为，法官在本案中的判决思路及其法律态度是，通过判决抑制可能对生成式AI发起的滥诉。即，原告拿不出证据证明有确切的损害，仅泛泛地指控被告的行为损害了自己的著作权。

　　如果法官不这样判，我们可以设想，会有更多的企业，尤其是个人，声称生成式AI公司未经许可使用了自己的作品，要求损害赔偿。这样的诉讼成本不仅是生成式人工智能产业所无法承受的，也给司法造成太多的负担。

　　在其他类似的诉讼中，比如Richard Kadrey起诉Meta公司的案件中，法官也做出了对被告有利的判决。

　　生成式AI带来的技术创新如何与法律博弈？

　　生成式AI不仅对著作权等传统知识产权带来法律上的挑战，实际上，其影响超越了法律本身，也对传统的市场模式带来冲击。

　　比如，前述纽约时报诉OpenAI和微软侵犯著作权的案件中，原告不仅指控被告侵犯著作权，而且指出，被告不仅使用了纽约时报上受版权法保护的内容，而且，其侵权行为还导致大量的纽约时报读者流失。这些读者不再访问纽约时报的线上渠道，转而阅读OpenAI输出的内容。

　　也就是说，生成式AI的出现，对传统的媒体市场格局也带来深刻的影响。

　　即便法律解决了知识产权归属问题，生成式AI的创作行为也给市场交易及其利益分配带来新的挑战。这从本文前面案例中很多原告的指控可以看出来。

　　比如，即便生成式AI合理使用了其他公司或个人的数据，合理使用的结果是，数据的创造者和所有人原来享有的市场份额被蚕食，市场份额重新分配。

　　这就给传统媒体带来不公平，甚至遭遇生存危机：自己的数据被生成式人工智能利用(即便是合理利用后，生成更受市场欢迎的数据(内容，自己的客户(读者被分流走，失去了市场份额。

　　显然，生成式AI带来的法律冲击背后是市场交易模式的冲击。如果法律不能解决这种市场交易模式的冲击，合理分配生成式AI与其数据来源主体之间的市场利益分配，没有人会有动力创造第一手数据。

　　如果立法或者司法判决仅仅停留在法律“保护谁”这个传统思维上，而不是考虑生成式AI给市场格局带来的变动，保护创新的立法或司法判决最终可能破坏生成式AI发展所赖以存在的优质的“数据生态”。

　　设想，传统媒体中的调查记者要花费成本调查市场，分析市场，形成第一手信息，并从中获得回报。如果人工智能在此基础上加工，形成更便于消费者使用的信息。如果法律不能解决生成式人工智能和第一手信息所有者之间的市场分配问题，则谁会有激励调查市场、分析市场，形成第一手有价值的信息？没有第一手的有价值的信息，生成式人工智能的优质数据来源何在？信息市场的正常生态如何维护？

　　笔者以为，在肯定生成式AI带来的社会效益(如信息普惠、创作民主化，鼓励技术创新的同时，立法和司法还应该从“维护优质数据生态”这个更高的视野和更大的“社会收益(social benefit”视角，思考法律与技术创新之间的博弈。

　　限于篇幅，本文只提出宏观的思路，即法律应该鼓励传统媒体业态等原始数据所有者或创造者与生成式AI之间自由交易。通过自由交易寻找最优的资源配置安排，形成帕累托改进效应。即，原始数据的所有者或创造者和生成式AI之间通过合作，创造价值增量，让每个参与人的境遇都能从生成式人工智能的运营中变得更好。这样，更多的市场主体(个人有激励创造更优质的数据，生成式AI受益于更优质的训练数据，产出更优质的产品，形成良性循环，在全社会范围内形成优质的数据生态。

　　(作者王佐发为西南科大法学院副教授

生成式人工智能公司官司不断 技术创新与法律如何再平衡

相关推荐

生成式人工智能公司官司不断技术创新与法律如何再平衡