包括NVIDIA、苹果、Salesforce和Anthropic在内的多家科技巨头,被曝光涉嫌违规使用数据,用于训练其AI模型。 ">
7月17日消息,据媒体报道,包括NVIDIA、苹果、Salesforce和Anthropic在内的多家科技巨头,被曝光涉嫌违规使用数据,用于训练其AI模型。
这些公司被发现使用了173536多个YouTube视频的字幕数据,这些视频是在未经视频创建者许可的情况下获得的。
这些公司使用的数据集称为YouTube
由非营利组织EleutherAI创建的“字幕”包含了来自48000多个频道的视频文字。
有许多来自知名教育机构和媒体公司的内容,如可汗研究所、麻省理工学院、哈佛大学等。此外,还收录了一些热门YouTube创作者的视频。
此前,EleutherAI发布了一项名为《堆》的数据汇编,大部分内容都是向公众开放的,包括YouTube字幕。
然而,值得注意的是,苹果在使用Pile数据集训练OpenELM模型时,并未直接下载数据,因此在技术层面上,是EleutherAI违反了YouTube的使用条款。
YouTube明确禁止未经授权访问平台上的素材,这些数据不仅被用来训练AI,还可能涉及版权和隐私问题。
创作者还表达了震惊和不满,因为他们没有被告知他们的作品被用于商业目的,更不用说获得任何补偿了。