ChatGPT 培训文献提出的道德、法律问题

加州大学伯克利分校的研究人员表示,ChatGPT 已经记住了大量受版权保护的作品,并且包含此类数据可能会给使用 OpenAI 模型进行的分析带来偏见。

伯克利的 Kent Chang、Mackenzie Cramer、Sandeep Son 和 David Bamman 于 4 月 28 日在arXiv预印本服务器上发表了一篇题为“说话,记忆:ChatGPT/GPT-4 已知书籍的考古学”的论文中报告了他们的发现。

虽然这一发现立即引发了适当性和版权保护方面的问题,但研究人员的主要兴趣在于透明度以及当依赖 OpenAI 的人对输入中包含和排除哪些来源一无所知时,可能会出现看不见的偏见。

“我们发现 OpenAI 模型已经记住了大量受版权保护的材料,并且记忆的程度与这些书籍的段落在网络上出现的频率有关,”研究人员说。

他们警告说:“这些模型记住一组未知书籍的能力会污染测试数据,从而使文化分析的测量有效性评估变得复杂。”

例如,研究人员指出,科幻小说和奇幻书籍在记忆书籍列表中占主导地位,这对 ChatGPT 可能提供的响应性质存在内在偏见。

“此类模型的准确性在很大程度上取决于模型在训练数据中看到信息的频率,从而质疑它们的泛化能力,”他们说。在验证结果时,此类模型“提出了挑战”,因为公众几乎不知道用于训练模型的数据的任何细节。

“了解模型在哪些书籍上接受过训练对于评估此类偏见来源至关重要,”他们说。

“我们在这里的工作表明,OpenAI 模型对书籍的了解与其在网络上的受欢迎程度成正比。”

伯克利研究发现的作品包括《哈利波特》、《1984》、《指环王》、《饥饿游戏》、《银河系漫游指南》、《华氏 451 度》、《权力的游戏》和《沙丘》 ”

虽然 ChatGPT 被发现对公共领域的作品非常了解,但鲜为人知的作品,如全球英语文学——旨在超越包括非洲、亚洲和加勒比地区在内的核心英语国家的阅读——在很大程度上是未知的。同样被忽视的还有黑皮书互动项目和黑人核心小组图书馆协会获奖者的作品。

伯克利研究人员之一巴曼在最近的一条推文中说:“我们应该考虑在这些模型中编码了谁的叙述经历,以及这如何影响其他行为。” 他补充说,“流行的文本可能不是模型性能的良好晴雨表 [鉴于] 对科幻/幻想的偏见。”

研究人员表示,他们的发现为使用公开训练数据的开放模型提供了理由。

与此同时,在不久的将来可能会面临重大的法律挑战。复制文本时“合理使用”的限制是什么?谁拥有全部或部分由 ChatGPT 生成的文本的版权?当多方对多个相似或相同的输出寻求 版权保护时,谁占上风?

也许还有一个更有趣的问题:机器语言是否都具有版权?

有些人可能还记得著名的“猕猴自拍”案例,一只猴子用专业摄影师留下的设备自拍。摄影师起诉使用这些迷人照片的出版物,但他们争辩说,由于摄影师没有拍摄照片,他不能要求版权保护。PETA 认为猴子应该拥有版权。

多年的法律斗争导致 2018 年的一项裁决确认非人类无权主张版权。

这会扩展到 ChatGPT 文献吗?

© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容