textsummary:总结文本的无监督方法

时间:2024-07-27 04:35:07
【文件属性】:

文件名称:textsummary:总结文本的无监督方法

文件大小:21.19MB

文件格式:ZIP

更新时间:2024-07-27 04:35:07

JavaScript

文本摘要 TextRank 的 Java 实现; 一种总结新闻文章的无监督方法。 基于 Rada Mihalcea 和 Paul Tarau 所做的工作。 方法论取自: : 使用 OpenNLP 库来分离句子和 Lucene 库来去除停用词和标记化。 TextSummary 的结果将与其他各种文本摘要器进行比较: 新闻文章使用: Java文件列表 SummaryBot.java:运行汇总过程。 PageRanker.java:运行页面排名算法。 MiscUtils.java:在句子之间创建加权邻接矩阵。 LuceneSentenceProcessor:使用 Lucene 去除停用词并标记化。 OpenNLPSentenceProcessor:删除句子并使用词性标记。 testMain.java:总结存储在文本文件中的新闻文章的示例。 更多信息 http://www


网友评论