文件名称:文本流中句子级新颖性检测的改进系统-研究论文
文件大小:453KB
文件格式:PDF
更新时间:2024-06-08 15:33:08
first story detection novelty detection
新闻事件中的新颖性检测长期以来一直是一个难题。 许多模型在特定的数据流上表现良好,但某些问题尚待解决,尤其是在来自WWW的大型数据流中,其中新术语的不可预测性需要在向量空间模型中进行调整。 我们提出了一种新颖的事件检测系统,该系统基于结合术语敏感哈希(LSH)的增量术语频率-倒文档频率(TF-IDF)加权。 通过对向量空间模型进行持续更新,我们的系统可以有效地适应任何新术语的数据流中的变化。 关于未命中概率,当评估来自Google新闻的基准数据集时,我们提出的新颖性检测框架要比公认的基准系统高出约16%。