文本摘要数据集的整理、总结及介绍(持续更新ing...)

时间:2024-10-26 07:33:16

诸神缄默不语-个人****博文目录

最近更新日期:2023.6.19
最早更新日期:2022.2.17

文章目录

  • 1. 数据集及其详情对照表
    • 1.1 中文数据集
      • 1.1.1 LCSTS
    • 1.2 英文数据集
      • 1.2.1 DUC数据集
      • 1.2.2 TAC数据集
      • 1.2.3 TREC数据集
      • 1.2.4 sent_comp数据集
    • 1.3 多语言(印度)
      • 1.3.1 IndicSumm
  • 2. 其他参考资料

1. 数据集及其详情对照表

本文对语言的描述中,简体中文直接简称中文,繁体中文则称为繁体中文。
我之前是直接用Markdown表格的,现在我改用石墨文档了。但是想来大家都知道石墨文档更新后,就只有会员才能公开文档了。
所以大家可以等我暴富后买会员,或者直接打钱给我买会员。
在这里插入图片描述

1.1 中文数据集

1.1.1 LCSTS

大规模中文短文本摘要数据集

数据集官方网站:LCSTS: A Large-Scale Chinese Short Text Summarization Dataset-智能计算研究中心

数据集官方获取方式(来源于上一网站):填写申请表(百度网盘地址Dropbox地址)并发送给Qingcai Chen: @ 或 Baotian Hu: baotianchina@
由于这个获取方式需要机构管理人员签字,我嫌麻烦,所以没有弄,所以我是从Heywhale网站 LCSTS短文本新闻摘要数据库 - 下载的数据(反正我也不用于商业用途就是了)(训练集2400591条样本,验证集10666条样本(注意这个数据里面名字叫test,但是验证集),测试集1106条样本(这个数据里面名字叫valid)。这个数据集是仅有原文和摘要文本的,没有原始数据集里面验证集和测试集里面的相关性数据)。

数据集的其他来源获取方式:
 ****网站 LCSTS数据集.txt_lcsts数据集-机器学习其他资源-****文库(可参考LCSTS中文数据集解析与处理_你的博客-****博客_lcsts数据集,共208W条数据)

语料来源:新浪微博
数据收集的策略很类似pageRank思想。先找50个多领域的流行官方组织的微博用户作为种子,然后从种子用户中抓取他们关注的用户,并且按照人工手写的规则进行过滤,如将不是大V、且粉丝少于100万的用户过滤掉。然后抓取候选用户的微博内容。最后通过过滤,清洗,提取等工作得到最后的短文-摘要对格式的数据集。1
原文是微博文本,摘要是微博作者原本就提供的标题。

数据样例:

content:雅虎发布2014年第四季度财报,并推出了免税方式剥离其持有的阿里巴巴集团15%股权的计划,打算将这一价值约400亿美元的宝贵投资分配给股东。截止发稿前,雅虎股价上涨了大约7%,至51.45美元。
summary:雅虎宣布剥离阿里巴巴股份。

样本量:>200W条
此外,作者还手工标注了10,666条样本的正文和标题之间的相关性,相关性分值区间是[1,5],分值越高表示越相关。

全部数据的统计信息(来源2):
(part2随机抽样自part1,part3独立于part1和2)各自的样本数,及人工评测得分:
在这里插入图片描述

样本长度:
在这里插入图片描述

原论文提供的baseline为RNN based encoder-decoder架构的seq2seq模型,使用数据集中part1样本为训练集,part3里评分为3、4、5的样本为测试集。以原文全文作为一个sequence进行输入。RNN使用的是GRU,模型参数随机初始化,用ADADELTA更新学习率。用beam search输出最终摘要,beam width为10。用ROUGE(ROUGE-1, ROUGE-2 and ROUGE-L)作为评估指标。
文本数据有两种预处理方式:以char(字)为单位(词表长度仅为4000)和以word(词)为单位(词表长度为50000)。
模型有两种架构:
1. 在解码阶段不使用局部上下文(local context):用RNN作为encoder,用其最后一层hidden state作为decoder输入,如下图所示:
在这里插入图片描述
2. 在解码阶段使用局部上下文:用encoder的所有hidden states作为decoder的输入,如下图所示:
在这里插入图片描述
实验结果最好的是以字为单位预处理,含局部上下文的模型。

文中提到难点在于UNK问题(rare word problem),文中给出的解决方式是以字为单位进行预处理来规避这一问题。后来著名的copy机制也是用于解决这一问题的。
以词为单位预处理出现UNK的例子:
在这里插入图片描述

paperswithcode上的数据集信息:LCSTS Dataset | Papers With Code

1.2 英文数据集

1.2.1 DUC数据集

DUC2002数据集:567个样本,每个样本有一个100-word的人工撰写的摘要。2

1.2.2 TAC数据集

数据集获取地址:Text Analysis Conference (TAC) Data(其中summarization track的数据)

1.2.3 TREC数据集

一个提取数据集之后的GitHub项目:AlexisDusart/ISSumSet

1.2.4 sent_comp数据集

huggingface的数据集下载地址:sent_comp · Datasets at Hugging Face(原始数据文件也是从GitHub项目上下载的)
paperswithcode的数据集信息:Sentence Compression Dataset | Papers With Code

1.3 多语言(印度)

1.3.1 IndicSumm

(2023 印度的国际信息技术学院CS硕士论文) Text Summarization for Resource-Poor Languages: Datasets and Models for Multiple Indian Languages
数据集GitHub项目:/sireeshasummarization/IS

2. 其他参考资料

  1. paperswithcode text summarization主题下的数据集:Machine Learning Datasets | Papers With Code

  1. 原文改写自 《LCSTS: A Large Scale Chinese Short Text Summarization Dataset》_victoriaGYR的博客-****博客 ↩︎

  2. 引用自:LCSTS: A Large Scale Chinese Short Text Summarization Dataset ↩︎ ↩︎