【文件属性】:
文件名称:non-anonymized-CNN-DailyMail:用于处理非匿名CNN和DailyMail的脚本,以进行摘要
文件大小:12.87MB
文件格式:ZIP
更新时间:2021-05-17 10:12:52
summarization cnn-dailymail non-anonymized Python
生成非匿名CNN和DailyMail进行摘要的脚本。 参考:
环境
python 3.6
特征
由CoreNLP标记
非匿名
小写
删除艺术信息
多进程
json(更具可读性)
如何使用它?
1.下载资料
从下载CNN和Daily Mail的故事目录。
2.下载CoreNLP
从下载并解压缩CoreNLP。 在您的bash_profile中添加以下命令:
export CLASSPATH= $CLASSPATH :/path/to/stanfordnlp-corenlp-full-2018-02-27/stanford-corenlp-3.9.1.jar
3.制作数据集
# for dailymail(similar for cnn)
# if your device has multiple CPUs, you could speed up by setting -worker
【文件预览】:
non-anonymized-CNN-DailyMail-master
----.gitignore(1KB)
----README.md(1KB)
----url_lists()
--------cnn_wayback_test_urls.txt(130KB)
--------dailymail_wayback_training_urls.txt(34.32MB)
--------cnn_wayback_validation_urls.txt(139KB)
--------cnn_wayback_training_urls.txt(9.95MB)
--------dailymail_wayback_test_urls.txt(1.88MB)
--------dailymail_wayback_validation_urls.txt(2.18MB)
----LICENSE(1KB)
----make_dataset.py(4KB)