国际 | 美人工智能巨头陷非法收集数据争议漩涡

国际 | 美人工智能巨头陷非法收集数据争议漩涡
2024-4-18 17:55:14 Author: mp.weixin.qq.com(查看原文) 阅读量:2 收藏

扫码订阅《中国信息安全》

邮发代号 2-786

征订热线：010-82341063

美国“商业内幕”网站近日刊文称，作为业界领先的人工智能（AI）初创企业，OpenAI正因收集、获取数据的方式陷入广泛争议。实际上，目前身处争议漩涡的除了OpenAI，还有多家美国科技企业。鉴于此，分析人士指出，世界各国亟须进一步完善人工智能法律法规，以清晰界定OpenAI等企业使用公众数据的边界。据此，也能判定这些企业训练人工智能大模型的数据来源是否合法。

数据收集引发争议

人工智能赛道在全球持续火热，众多初创公司争先恐后地收集海量、高质量数据训练人工智能大模型。然而，因为相关法律法规并不完善，目前尚存诸多灰色地带。

近日，“商业内幕”网的文章以OpenAI公司旗下人工智能视频创作工具Sora为例报道称，Sora的训练依赖海量数据，这些数据很可能来自谷歌旗下的YouTube视频网站，而“这几乎是公开的秘密”。

YouTube官方一直禁止使用自动化工具批量下载网站视频的做法，也禁止下载YouTube视频用于商业目的，并采取限流等措施加以应对。文章称，目前尚不清楚OpenAI是用了什么样的技术手段绕过YouTube的拦截。

据熟悉OpenAI运营的知情人士透露，这家公司指派了一个“秘密团队”来获取训练数据，公司内部也不会探究数据来源。OpenAI首席技术官米拉·穆拉蒂称，公司“使用公开和被许可数据”训练Sora，但“并不确定”其中是否包括YouTube视频内容。

当前，互联网界的各大公司似乎达成某种“共识”——只要自身能获取到别人的数据，也就默许其他玩家采取相同的做法。在一些人看来，这样的“共识”是“狂飙突进中的人工智能产业需要留意的一大隐患”。

有分析人士指出，OpenAI做的是通用大模型，会在YouTube等公共平台上获取数据，而图片和视频的版权往往较文字更为明确，更容易引发争议。

业内人士指出，生成式人工智能的快速兴起掀起了一场世界范围内的技术竞赛，在这个新领域中，什么是合法的，什么是合乎道德的，目前尚缺乏明确而成熟的规则。

推动监管措施变革

无独有偶，近来，美国多个头部科技企业遭遇类似争议，因人工智能训练数据来源而陷入侵权纠纷，进而吃到官司。

1月5日，美国知名作家尼古拉斯·巴斯贝恩和尼古拉斯·盖奇向纽约曼哈顿联邦地区法院提起集体诉讼，指控微软和OpenAI侵犯了他们以及其他作家的版权。他们在诉讼中称，这两家公司使用他们书中的信息来训练包括聊天机器人ChatGPT在内的人工智能产品，这一行为构成“对版权作品的恶意大规模窃取”。

3月初，3名作家在美国加州对英伟达公司发起集体诉讼，指控该公司的NeMo AI平台使用盗版文学网站素材训练人工智能的自然语言撰写技能。早前，已有18名作家起诉OpenAI侵权。这些作家向法庭表示，OpenAI在未经许可的情况下，从互联网上批量复制了他们的作品并纳入ChatGPT训练数据中，侵犯了作品版权。

作家们还表示，由于微软公司“深度参与”了训练和开发人工智能模型，也应承担侵权责任。

微软和OpenAI面临的诉讼浪潮还不止于此。2023年12月27日，美国《纽约时报》对微软和OpenAI提起诉讼，成为第一家起诉人工智能科技公司侵权的美国大型媒体。起诉书称，OpenAI和微软“试图搭《纽约时报》在新闻领域巨额投资的便车，在未经许可或未付款的情况下利用《纽约时报》的内容制造替代产品”。

此外，法国环球音乐集团和其他音乐出版商2023年曾起诉美国企业Anthropic公司，指控后者使用受版权保护的歌词来训练人工智能系统，并为用户查询生成答案。图片企业盖帝图像有限公司指认英国“稳定”人工智能公司利用这家图片公司及其合作伙伴的照片获利，以制作能生成图像的视觉AI。

由此可见，随着人工智能领域新一轮爆发式发展，各方向人工智能公司开打版权战的案例已不在少数。美国娱乐游戏网站IGN评价上述官司称，这些案例或成为推动监管措施变革的关键。

多国法规有待检验

对于获取训练人工智能大模型的数据，各国法规尚有分歧，甚至是一片空白。有些国家的法规更加倾向于信息公开，有些国家的法规更加倾向于信息安全。共识在于，选取数据不能涉及个人隐私数据。如果企业从互联网上获取数据，需对数据进行处理以达到脱敏脱密。

在管理人工智能训练数据来源方面，欧洲步子迈得较大。欧洲议会3月13日以压倒性票数通过《人工智能法案》。这一法案为人工智能技术设置严格的规则，旨在确保人工智能的使用不会侵犯人的基本权利，如隐私、数据保护和非歧视等。欧盟官员将其称为“世界上第一部针对可信人工智能的全面、具有约束力的法规”。

而在美国，尚未出台联邦层面、综合性的人工智能监管法律。2021年出台的《2020年国家人工智能倡议法案》更多算是在人工智能领域的政策布局，与人工智能的治理和强监管还有一定距离。

去年年底，两名美国议员曾提出一项《人工智能基础模型透明法案》，要求所有人工智能基础模型都必须披露训练数据来源、获取数据的方式以及使用的算法等。但这项法案何时能成为正式立法不得而知。

国际社会认为，OpenAI和一些科技公司在当前的“共识”下，即使“使用受版权保护的内容进行人工智能模型训练是合法的”，这样的行为也有待得到监管机构或法庭的判断。

目前，人工智能正处于蓬勃发展之中，未来的重中之重是如何引导人工智能发挥正面作用，同时规避其负面影响。在这一过程中，相关立法的及时跟进显然必不可少。

（来源：法治日报）

《中国信息安全》杂志倾力推荐

“企业成长计划”

点击下图了解详情

文章来源: https://mp.weixin.qq.com/s?__biz=MzA5MzE5MDAzOA==&mid=2664211170&idx=8&sn=5df0ac47a6b51a6791e7d4ba735faf76&chksm=8b59a01bbc2e290d2286435ff608446e5cd5167abc0fa831ba7b2585ebc5fe8d384fb9de7c45&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh