文件名称:text-summariser:自动文本摘要器
文件大小:56KB
文件格式:ZIP
更新时间:2024-04-14 08:12:08
JupyterNotebook
文本摘要器 自动提取文本摘要器 对于摘要汇总步骤1:首先,通过使用Web抓取和beautifulsoup工具,我们从Wikipedia或任何其他可靠的站点获得了所需的文章,该站点在用户从Wikipedia输入主题之后提供了纪录片以及最大长度和句子数:预处理(删除停用词,非字母字符,转为小写字母)这是算法的第一阶段,其中将整个文本转换为小写字母以保持统一性,并删除了非字母字符。 使用nltk的停用词列表,还从文本中删除了停用词(一个,一个等)。 停用词是诸如'is','and','or'等不那么重要的词。 STEP-3)现在,在运行清理功能并完成预处理之后,我们标记并计算概率并将这些概率存储在概率字典中,以用于计算平均句子权重,并使用具有最高句子概率的单词最终生成摘要 TEXTRANK算法Textrank是一种基于图的提取文本摘要方法。 我们的程序如下所示:-程序首先解析包含文档和摘要的联机
【文件预览】:
text-summariser-main
----README.md(4KB)
----textrank.ipynb(52KB)
----sumbasic.ipynb(124KB)