文件名称:论文研究-融合PAM和主题偏好TextRank的历史沿革信息抽取.pdf
文件大小:1.05MB
文件格式:PDF
更新时间:2022-08-11 14:07:30
信息抽取,历史沿革,PAM,TextRank,主题模型
针对从自然标注大数据中抽取历史沿革主题信息的问题,提出了一种融合PAM主题模型与主题偏好TextRank的方法。该方法利用PAM主题模型获取历史沿革主题基于其他相关主题的分布和不同主题基于词的分布;主题偏好TextRank算法则根据PAM所获得的主题和词的分布,在随机游走的过程中更加偏好于与历史沿革主题相关度大的节点,从而更有利于抽取历史沿革主题信息。因历史沿革主题特征复杂,与其他主题关联度大,词项本身是否表达历史沿革主题信息也并不明确,因此PAM既可以获取基于词空间的分布,又可以获取基于主题分布,对解决这类问题有很大的帮助。利用已获取的主题信息,主题偏好TextRank算法偏向于与历史沿革主题相关的节点进行随机游走,使得抽取结果趋向于历史沿革主题,从而提高了抽取的准确性。实验结果表明,该方法在抽取历史沿革主题信息上更有效。