# 人工智能 苹果等科技公司被发现未经授权使用 17 万条 YouTube 视频的字幕训练人工智能,涉及的科技公司包括苹果、Anthropic、英伟达和 Salesforce 等。数据来源为第三方非营利组织 EleutherAI 提供,该组织未经 YouTube 授权、未经内容创作者授权抓取了 48,000 个频道的 173,536 个视频的字幕做成了数据集。查看全文:https://ourl.co/104989
据科技新闻网站 Proof News 发布的消息,包括苹果在内的多个科技公司使用的第三方数据为未经授权的,这些数据来源主要是 YouTube,这些公司使用 48,000 个频道的 173,536 个 YouTube 视频字幕文件用来训练人工智能模型。
涉及的大型科技公司包括苹果、Anthropic、英伟达、Salesforce 等,不过并不是这些公司直接从 YouTube 偷视频,而是第三方数据提供商 EleutherAI 收集并提供的。
EleutherAI 是一个非营利组织,该组织发布了一个名为 Pile 的数据集,该数据集的大部分内容开放使用,任何有足够空间和计算能力的人都可以通过网络下载并拿来训练 AI。
该组织在论文中提到不少大型科技公司使用 Pile 数据集训练 AI,例如苹果使用该数据集训练 OpenELM 模型,这是苹果在 4 月份公布的一个新模型。
目前这种情况就牵涉到比较复杂的问题了,即诸如苹果这类公司使用第三方提供的数据训练模型,但第三方的数据来源是不合规的,那使用这些数据训练模型的公司是否需要承担责任呢?
根据 YouTube 条款未经授权使用 YouTube 视频的任何内容包括但不限于字幕都是违反协议的,EleutherAI 的行为违反 YouTube 使用协议,同时也侵犯了 YouTube 视频创作者的版权。
当然这种情况目前已经非常常见,即不少人工智能公司会未经授权抓取互联网上的内容用于训练人工智能,这种操作一般都是悄悄进行的,因此内容创作者很难发现自己的内容已经被未经授权的使用。
苹果、英伟达、Anthropic、EleutherAI 以及 YouTube 目前都还没有就此事发布声明,不过对于这种明显的违规行为,YouTube 可能会采取法律措施。
版权声明:
感谢您的阅读,本文由 @山外的鸭子哥 转载或编译,如您需要继续转载此内容请务必以超链接(而非纯文本链接)标注原始来源。原始内容来源:Wired