文件名称:ParaSCI:大型科学复述数据集,可延长生成复述的时间
文件大小:24.54MB
文件格式:ZIP
更新时间:2024-06-10 08:39:48
ParaSCI 此版本库包含短语数据ParaSCI数据集的下载说明,以及在论文中重现结果的代码。 介绍 复述是对具有不同表达方式的意思的重述。 它在我们日常的语言表达中非常常见,它也可以应用于NLP的多个下游任务,例如生成各种文本或为聊天机器人增加内容。 我们提出ParaSCI,这是科学领域中第一个大规模的复述数据集,包括来自ACL(ParaSCI-ACL)的33,981个复述对和来自arXiv(ParaSCI-arXiv)的316,063对。 探究科学论文的特征和常见模式,我们通过论文内和论文间的方法构建该数据集,例如收集同一论文的引文或通过科学术语汇总定义。 为了利用部分释义的句子,我们将PDBERT用作一般释义发现方法。 ParaSCI中复述的主要优点在于突出的长度和文本多样性,这是对现有复述数据集的补充。 ParaSCI在人类评估和下游任务(尤其是长反义词生成)上获得了令人
【文件预览】:
ParaSCI-master
----PDBERT()
--------url.md(134B)
----README.md(3KB)
----Data()
--------.DS_Store(6KB)
--------ParaSCI-ACL()
--------ParaSCI-arXiv()