文件名称:headline-generation
文件大小:44.14MB
文件格式:ZIP
更新时间:2024-05-01 01:01:14
JupyterNotebook
标题生成 在数字媒体世界中,每天都有数百万条新闻在争夺读者的眼球,头条新闻在引导读者找到合适的内容时起着重要的作用。 因此,一些发行商被激励创建带有误导性内容的标题,以引起读者的注意。 因此,开发一种自动标题生成系统,该系统可以提供文章的真实和翔实的标题,就成为一个严峻的挑战。 本文研究了不同的抽象文本摘要框架,包括2000年引入的统计模型和2020年建立的基于Transformer的深度学习模型,以了解这些方法的优点和局限性。 我们对该项目的贡献包括:1)在最近发布的数据集NewSHead上实施和评估这些模型,以及2)试用新的预训练和自适应策略以改进基于变压器的编码器-解码器模型。
【文件预览】:
headline-generation-main
----dataprep()
--------.ipynb_checkpoints()
--------data_processing.py(3KB)
--------file.html(51B)
--------newshead_valid_prep.sh(786B)
--------data_processing_train.py(4KB)
--------delete_errorMessage_916196.out(661B)
--------dataprep_main.py(703B)
--------__pycache__()
--------newshead_train_prep.sh(799B)
--------delete_errorMessage_916203.out(355B)
--------Reuters_preprocessing.ipynb(16KB)
--------dataprep_main_train.py(770B)
--------sgm_processing.py(3KB)
--------delete_errorMessage_916198.out(133KB)
--------delete_errorMessage_916205.out(7KB)
--------EDA()
----data()
--------reuters_processed.csv(23.12MB)
--------newshead_raw()
--------newshead_test.csv(89.03MB)
--------reuters21578()
--------reuters_train.csv(18.55MB)
--------reuters_valid.csv(2.29MB)
--------reuters_test.csv(2.26MB)
----README.md(1022B)
----banko()
--------.ipynb_checkpoints()
--------banko_from_scratch.ipynb(18KB)