论文研究-基于TF*PDF的热点关键短语提取.pdf

时间:2022-08-11 17:29:02
【文件属性】:

文件名称:论文研究-基于TF*PDF的热点关键短语提取.pdf

文件大小:891KB

文件格式:PDF

更新时间:2022-08-11 17:29:02

TF*PDF,TDT,提取,脉冲值,关键词短语

传统的TF*PDF方法提取的关键短语可精确地描述话题并进行新闻报道的追踪, 但存在误将噪声数据识别为关键短语的情况。提出了一种基于位置权重TF*PDF的两段式关键短语提取方法滤除噪声数据。该方法将传统的TF*PDF算法与位置权重相结合, 计算词汇与短语的权重, 获取候选关键短语列表, 关键短语的脉冲值则用于过滤列表中的噪声。通过关键短语识别进程根据位置信息、频率信息等将热点词汇组合成短语。TF*PDF位置权重算法同时也用于为短语分配权重, 排名前K的短语被认为是热点关键短语。以真实网络数据为基础的实验结果表明, 该提取方法与传统的TF*PDF提取方法相比, 可更好地去除关键词短语中的绝对噪声, 较好地改善了热点话题检测的准确度。


网友评论