文件名称:公平学习-研究论文
文件大小:667KB
文件格式:PDF
更新时间:2024-06-29 08:19:35
论文研究
神经网络和机器学习人工智能 (AI) 需要全面的数据集进行训练。 这些数据集通常由图像、视频、音频或文本组成。 所有这些东西都有版权。 因此,版权法是培训 AI 的巨大潜在障碍。 不仅聚合数据集本身可能受到版权保护,而且数据集中的每个单独的图像、视频和文本也可能受到版权保护。 目前尚不清楚使用这些受版权保护的作品数据库来制造自动驾驶汽车,或通过分析其中的内容来学习自然语言,是否会被视为现行法律下的合理使用。 过去 25 年的合理使用原则侧重于版权作品的转化。 AI 不会改变他们训练的数据库; 他们正在使用整个数据库,并用于商业目的。 法院可能认为这是一种他们应该禁止的搭便车。在本文中,我们认为人工智能通常应该能够使用数据库进行培训,无论该数据库的内容是否受版权保护。 这样做有很好的政策理由。 而且由于训练数据集可能包含数以千计不同所有者的数百万种不同作品,因此没有任何可行的选择来简单地将所有底层照片或文本许可用于新用途。 因此,允许版权主张无异于说,不是版权所有者会得到报酬,而是没有人会从这种新用途中受益。还有另一个更深层次的原因允许此类用途,其意义远远超出了训练 AI . 理解为什么人工智能使用受版权保护的作品应该是公平的,实际上揭示了版权法核心的一个重要问题。 有时人们(或机器)会复制表达式,但他们只对学习该表达式所传达的想法感兴趣。 在大多数情况下,这就是训练数据的情况。 AI 需要停车标志的照片,以便它可以学习识别停车标志,而不是因为您在照明或构图方面做出的任何艺术选择。 同样,它想查看您写的内容,以了解单词在日常对话中的排列方式,而不是因为您的散文特别具有表现力。 AI 不仅仅需要事实。 这个问题出现在许多其他情况下。 例如,在 American Geophysical Union v. Texaco 一案中,被告只对科学期刊文章中的想法感兴趣; 影印这篇文章只是获得这些想法的最方便的方式。 其他例子包括关于软件互操作性案件的版权纠纷,如谷歌诉Oracle,当前关于州法规和法律中的版权纠纷,甚至可能是高温瑜伽姿势以及围绕功利主义作品艺术方面版权保护的纠缠不清的案件比如衣服和自行车架。 在所有这些案例中,版权法都被用来针对那些实际上想要法律不应该保护的东西——作品的基本思想、事实或功能的被告。版权法应该允许出于非表达目的复制作品. 当被告复制作品的原因不是为了获得该作品中受保护的表达方式时,合理使用应在因素一和因素二下考虑被告复制的目的是为了挪用原告的表达方式还是只是为了想法。 我们不想让创意作品的版权最终控制不受保护的元素。