OpenAI面临数据来源争议:模型训练的法律与伦理挑战加剧

随着GPT等大规模AI模型的持续进化,OpenAI所面临的争议似乎日益增多。除了埃隆·马斯克多次提出的关于模型开源的问题外,OpenAI用于训练其大型AI模型的数据来源的不透明性,可能已经为该公司潜藏了潜在的法律风险。

OpenAI面临数据来源争议:模型训练的法律与伦理挑战加剧

在当下的AI模型训练中,需要消耗大量的数据。据公开信息显示,OpenAI获取数据的方式可能包括但不限于:公开可获取的数据集(例如书籍、网站、新闻、学术论文等)、合作伙伴及第三方数据供应商提供的数据、购买的特定领域数据(如医疗、法律或科学资料)、通过模型生成的合成数据以及众包或社区贡献的数据。

然而,外界更加关注的是OpenAI如何获取这些数据。

根据Business Insider的报道,OpenAI利用大量YouTube视频来训练其模型已经不是秘密,包括其最新推出的视频域模型Sora在内的产品都受益于此。但如何合法获取足够的YouTube内容,成为了一个谜团。

YouTube作为谷歌的子公司,自2006年被谷歌收购后迅速成长为全球最大的视频分享平台。谷歌作为OpenAI的主要竞争对手,不太可能无偿分享其宝贵的资源。YouTube已经禁止了出于商业目的的视频下载,并对大规模下载行为施加了限制。在这种严格控制之下,即便是个人用户也难以快速下载视频。

普遍的猜测是,OpenAI通过爬虫技术“秘密”获取了YouTube的数据。OpenAI之前曾承认推出了一种名为GPTBot的爬虫机器人,用于抓取网络数据训练其大型模型。

当被问及是否使用来自YouTube、Instagram和Facebook的视频训练Sora时,OpenAI的首席技术官Mira Murati避而不答,增强了人们对OpenAI“数据小偷”形象的印象。

使用爬虫技术获取数据虽然不被谷歌容忍,但根据美国的法律和“合理使用”原则,以这种方式访问YouTube视频可能并非违法。目前,许多科技公司,包括谷歌和OpenAI,都认为使用受版权保护的内容来训练人工智能模型是合法的,尽管监管机构尚未对此做出明确规定。

OpenAI面临数据来源争议:模型训练的法律与伦理挑战加剧

随着人工智能技术的竞争加剧,各大厂商都在积极布局,以技术栅栏保护自己的竞争优势。过去,OpenAI等公司会在研究论文中公开其数据来源,但这种做法在当前的竞争环境下已经变得不再常见。

随着生成式AI技术的不断发展,类似的争议和法律风险只会增加。对于大型公司来说,面对数据采购和使用的高成本和合规挑战,如何平衡隐私保护和技术创新,以及如何在合规与发展之间找到最佳路径,成为了每个AI公司都必须面对的难题。

本文资料来源于互联网,仅做网络分享,如有侵权,请联系删除;不代表Sora中文网立场,如若转载,请注明出处:https://www.allinsora.com/6073

(0)
上一篇 2024年3月19日 下午1:38
下一篇 2024年3月19日 下午1:53

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

关注微信
Sora改变AI认知方式,开启走向「世界模拟器」的史诗级的漫漫征途。