acm-header
登录

ACM通信

法律上来说

版权内作品的文本和数据挖掘:合法吗?


挖掘拾取和二进制代码,说明

来源:盖蒂图片社

文本和数据挖掘(TDM)使用统计分析工具,通过查找模式、发现关系和分析语义,从大量文本或数据中提取新知识。它被广泛应用于从生物医学研究到数字人文学科的各个领域。只要所分析的文本和数据的语料库完全由公共领域的作品组成,版权就不会对TDM研究构成障碍。一个然而,版权可能是研究时分dm的一个障碍,因为在上个世纪创造了大量版权内的作品。

这是因为版权规定了受保护作品的复制,而TDM要求研究人员在过程的不同阶段进行几种类型的复制:从模拟作品的扫描副本到对文本和数据进行格式化,再到为处理它们做好准备,以便从大量被搜索的数据中提取有用的信息,再到在挖掘完成后存储数据。


根据修订后的法律,用户可以出于机器学习的目的分析版权内的作品。


渴望本国产业成为人工智能(AI)领域全球领导者的政府开始意识到,如果允许研究人员为TDM目的复制有版权的作品,他们的知识经济就更有可能蓬勃发展。美国上诉法院裁定TDM对版权内作品的复制不构成侵权,从而使这种做法成为可能。日本已经制定了允许TDM研究复制的法律。欧盟欧盟2019年关于数字单一市场版权和相关权利的指令(CDSM)要求成员国必须为TDM研究目的采用版权例外。

回到顶部

美国合理使用TDM裁决

两个美国上诉法院的判决-作者协会诉谷歌案而且作者协会诉HathiTrust案-已经裁定为TDM研究目的复制版权内的文本是合理使用,而不是侵权。这些诉讼源自谷歌图书搜索项目(GBS)。

GBS是一个包含数百万本数字图书的语料库,用于改进谷歌在2004年与密歇根大学达成协议后开发的搜索技术,该协议将扫描其图书馆收藏的所有800万本书。作为回报,密歇根大学从谷歌获得了它扫描的图书的数字副本。谷歌与其他几所州立大学达成了类似协议。HathiTrust数字图书馆的成立是为了托管谷歌提供给谷歌的州相关图书馆合作伙伴的图书馆数字副本。

到2005年,谷歌已经对研究图书馆收藏的数百万本书进行了数字扫描,其中绝大多数都有版权。同年晚些时候,作家协会及其三名成员提起集体诉讼,指控谷歌制作这些数字拷贝侵犯版权。

从公会的角度来看,谷歌为了商业目的而系统地复制数百万种版权内书籍的全部内容是完全没有道理的。版权所有权的主要准则是,想要复制作者作品的人必须请求并获得复制许可,而谷歌没有做到这一点。

谷歌辩解称,其复制图书是合理使用,因为其扫描图书的目的是为社会造福。有必要复制整个内容以索引书籍的内容,提供响应用户搜索查询的片段,并使谷歌能够从事非消耗性研究(例如,创建Ngram查看器以使用户能够看到单词和短语使用的趋势,并改进其翻译工具)。

谷歌还声称,它提供的片段是合理使用的,因为它们数量太少,长度太短,不会对图书市场产生有害影响。人们并不使用GBS来消费书籍内容。GBS搜索者通常是在寻找书籍可能包含的事实(例如,“黄石国家公园有多少水牛?”),而版权并不保护事实。事实上,因为谷歌提供了一些网站的链接,用户可以在这些网站上根据用户的搜索查询购买图书,所以GBS更有可能使图书市场受益,而不是损害它。

上诉法院发现谷歌的论点比作家协会的主张更有说服力。它注意到,GBS使开展新的研究成为可能,特别提到了TDM作为一个例子。研究和学术是两种法定的合理使用,所以这也支持了谷歌的辩护。

HathiTrust决策更直接地解决了TDM的研究问题。HathiTrust允许来自联盟成员机构的研究人员在其数百万本语料库(目前总计约1700万册)中进行搜索,以确定每一本书中提到研究人员正在寻找的人物、地点或现象。

HathiTrust为合作机构的研究人员提供参考文献搜索词出现的特定书籍的书目信息,甚至提供参考文献所在页码的数据。法院认为这一有益的研究目的强烈支持HathiTrust的合理使用辩护。

回到顶部

日本的TDM特例

认识到TDM对人工智能领域取得成功的重要性,日本立法机构在2009年通过了版权规则的特殊例外,以支持TDM研究。它是世界上第一个制定此类法律的国家。然而,人工智能研究人员抱怨说,这一例外并没有完全解决TDM和人工智能研究人员的需求,因此在2018年,日本修订了其版权法,以回应这些担忧。

根据修订后的法律,用户可以出于机器学习的目的分析版权内的作品。只要TDM研究人员不利用作品中受保护的表达,而只是对数据进行处理以提取知识,他们就不会损害版权所有者的合法利益,因为版权所有者的权利仅限于控制对其作品表达方面的利用。因此,将版权内的作品作为原始数据输入计算机以进行深度学习是公平的。

修订后的法律还允许研究人员为TDM目的制作作品的附带数字副本。这认识到偶然的副本是进行机器学习活动所必需的。这也不会损害版权所有者的合法利益。

修订后的法律的一项附加规定允许TDM研究人员使用版权内作品的数字副本用于数据验证目的。立法机构认识到,这种使用对于使研究人员能够确保他们从TDM研究中获得的结果和见解是可靠的非常重要。这种行为也不损害版权所有者的合法利益。

回到顶部

CDSM中的TDM异常

欧盟委员会提出的CDSM指令的早期草案要求欧盟成员国采用一项新的版权例外,允许非营利科学组织的研究人员从事TDM研究,只要他们有权合法访问他们进行工作的数据库。这一新的例外是强制性的,也是合同所不能放弃的。

欧盟成员国本应在2021年6月之前在本国法律中实施TDM例外——尽管并非所有成员国都做到了这一点——最终指令授权TDM研究例外适用于非营利性文化遗产研究人员和科学研究人员。

有人担心将TDM的例外限制在非营利性研究人员身上会损害欧盟考虑到美国人希望自己的行业构建能够在全球市场上竞争的AI系统的愿望,欧盟委员会被说服为其他研究人员增加了第二个强制性TDM例外,包括那些从事商业化TDM研究的人员。然而,这些研究人员希望在其上进行TDM分析的数据库所有者可以通过合同覆盖此异常。


下载Sci-Hub对于那些不想被起诉侵犯版权的TDM研究人员来说是一个有风险的策略。


一些学者对CDSM TDM的例外表示担忧,尽管朝着正确方向迈出的步骤将被证明在范围上过于狭窄和不确定,无法完全满足TDM研究人员的需求。日本更广泛的支持tdm的规则将更能响应研究人员的需求。

回到顶部

在Sci-Hub语料库上的TDM ?

Sci-Hub是世界上大量科学期刊文献的著名资源库,其中许多文献通常是通过专有付费方式保存的。爱思唯尔(Elsevier)等出版商已起诉Sci-Hub及其创始人侵犯版权。法院认为该数据库包含大量侵权材料,并已迫使其创建者关闭该数据库。然而,Sci-Hub的语料库已经重新成为科学家的资源,仍然可以很容易地在互联网上找到。

许多研究人员希望将其用于TDM目的,但这是合法的吗?

使用Sci-Hub进行TDM研究的愿望之所以产生,部分原因是许多科学期刊的专有出版商向大学和其他研究机构提供机构数据库订阅,而这些机构不具备跨平台互操作能力。因此,研究人员无法在各种专有数据库之间进行搜索。跨发行商合作非常罕见。

此外,提供专有数据库的许可条款可能损害研究人员充分利用TDM工具的能力。出版商和一些收藏协会正在推广TDM的许可,将其作为研究机构应该付费的一项增值服务。有些许可比TDM研究人员想要的更加严格。

即使是在订阅了专有数据库的机构中工作的科研人员也希望使用Sci-Hub来进行TDM研究。该数据库比某些发布者存储库更容易使用。Sci-Hub数据库比任何专有数据库都要全面得多。并且没有许可证限制限制研究者自由地使用TDM工具进行调查。

下载Sci-Hub对于那些不想被起诉侵犯版权的TDM研究人员来说是一个有风险的策略。但是,对Sci-Hub在其他地方托管的藏品进行TDM搜索,只涉及到一种短暂的复制,美国法院认为这种复制太过短暂,不可能是有版权的电视节目的侵权“复制”。在scic - hub上进行TDM研究的过程中提取的结果将是不可保护的事实。1

因此,可以想象的是,如果TDM研究人员将Sci-Hub用于TDM研究目的,他们将不会侵犯美国版权法。然而,欧盟允许TDM研究的例外是建立在研究人员有权合法访问他们挖掘的文本和数据的基础上的。

回到顶部

结论

世界上只有少数国家在版权规则中有灵活的合理使用或类似合理使用的例外情况,使它们能够使用这一工具为TDM研究复制行为辩护。因此,有必要立法,以允许TDM研究人员充分利用这一套新的工具,以扩大从大型数据和文本语料库的数字探索中所知的范围。

回到顶部

参考文献

1.卡罗尔,M。版权与科学进步:为什么文本和数据挖掘是合法的UC Davis L. Rev. 893(2020)。

回到顶部

作者

帕梅拉·萨缪尔森pam@law.berkeley.edu)是美国加州大学伯克利分校理查德·m·谢尔曼法律与信息特聘教授。

回到顶部

脚注

a.在美国,1926年以前出版的任何作品都属于公共领域。在其他国家,版权条款持续到作者的一生再加上50年或70年,这使得确定作品是否属于公共领域变得更加困难。


版权归作者所有。
向所有者/作者请求(重新)发布权限

数字图书馆是由计算机协会出版的。版权所有©2021 ACM, Inc.


没有发现记录

Baidu
map