New-Pointer-Generator-Networks-for-Summarization-Chinese:基于transformer的指针生成网络

时间:2024-06-17 09:53:28
【文件属性】:

文件名称:New-Pointer-Generator-Networks-for-Summarization-Chinese:基于transformer的指针生成网络

文件大小:42KB

文件格式:ZIP

更新时间:2024-06-17 09:53:28

Python

zn 指针生成网络,中文数据集下生成摘要, 详情 改动的地方 原论文的指针生成网络,对于正文和摘要的特征抽取是采用单层(双向)的LSTM进行抽取的,我将其变为Bert的embedding的结构。模型的整体框架没有变动,但是工程上的处理进行了微调。(并非使用了Bert) 中文数据: 250万篇新闻( 原始数据9G,压缩文件3.6G;新闻内容跨度:2014-2016年) 或,密码:k265 tokenizer 新闻数据集的分词代码 new-point-generate-zh 指针生成网络在新闻数据集下的应用 运行 先是tokenizer python main.py --original_data_dir E:\0000_python\point-genge\point-generate\zh\data --tokenized_dir ./tokenized_single E:\0000_py


【文件预览】:
New-Pointer-Generator-Networks-for-Summarization-Chinese-master
----new-point-generate-zh()
--------train_util.py(11KB)
--------news_sigle_config.py(258B)
--------model()
--------data_util()
--------main.py(6KB)
--------decoder.py(11KB)
----tokenizer()
--------single_config.py(116B)
--------main.py(18KB)
----README.md(1KB)

网友评论