(一)、On-line new event detection using single pass clustering
James Allen 组的早期作品,主要内容是在TDT任务中使用single-pass算法进行新话题的发现,其所提出的single-pass算法是根据C.J. van Rijsbergen《 Information Retrieval》书中所描述的聚类算法修改得到的。原版年代较久(79年的),没有找到具体出处,而目前研究TDT的者们,所说的single-pass算法都指的是本篇文章中的算法。single-pass算法面向的是动态流式数据,具有实时约束性,并且传入的文档流是单向的。其处理流程为:
1.使用特征提取和选择技术为文档的内容构建查询表示。
2.通过使用查询评估新文档来确定查询的初始阈值。
3.将新文档与内存中的先前查询进行比较。
4.如果文档未超过其阈值而未触发任何先前的查询,则将文档标记为包含新事件。
5.如果文档触发现有查询,则将文档标记为不包含新事件。
6.(可选)将填充添加到它触发的查询的聚合列表中。
7.(可选)使用文档重建现有查询。
8.将新查询添加到内存。
简单来说,就是新来的文档是否包含已有触发词,若未包含则将其视为一个新事件。
在特征提取部分,经典single-pass算法用的是TF-IDF算法
算法还加入了时间因子,利用时间因子来提高对新事件的识别能力
tp是时间相关的值,用来判断两个报道相差时间,p是预设的一个值,用于文本相似度的值的计算,wi是query qi的权值,eval是衡量query和文档d的相似度的东西。
实验数据为CNN和路透社1994年7月1日至1995年6月30日的新闻,共15863个文档,通过标记选择出了25个话题,1124个用于评估的文档。
评价指标为:准确率,召回率,F值,错检率,漏检率和距离
实验结果:
p = 0:225
tp = 0:000008
维度从5-400均进行了实验,下图为400的结果
(Performance = 100 { Distance from Origin )
对比结果
结果分析:
1.维度小的时候对文档的表示能力较弱,所以没有办法很好的衡量文档内涵和相似度。
2.不同的维度和不同的参数无法区分所有文档,系统无法在不同的粒度级别上检测到新闻中讨论的某些事件,也就是标注事件的相关性不同,对于某个参数来说很难将所有的事件或话题都区分的很明确,这也是影响结果的一大原因。
文章的未来工作提出了
1.参数值估计。
2.特征提取和选择。
3.特征权重分配。
三个点影响实验结果的点,之后的人也是按照这个思路去解决问题的
总结:
这篇文章应该算是single-pass算法在线聚类的开山之作了,非常经典,也是为之后的研究者提供了方向,但是文章太老了,需要补充着看新的文章才能有所收获。
(二)、Semantic Information Extraction for Improved Word Embeddings
2015NAACL的最佳论文,作者为清华的Jiaqiang Chen和Gerard de Melo(一个大佬)
主要内容是关于information extraction techniques,也就是语义信息抽取的技巧,这种方法可以在产生词向量时提供额外的可利用的语义关系,最后的结果提升是用词语相似性的任务来表现的。
While it is indisputable that context plays a vital role in meaning acquisition
上下文在Word2vec的训练和语义获取中是至关重要的,所以在这篇文章中,作者将语义信息嵌入到word embedding中,所以用的方式为,除在普通语料上训练word embedding还利用了(在数据集或者网页上的特定文章中的)强语义相关性的词对,具体方式稍后介绍,最后结果表明这种方式比在普通的语料库中训练的结果要好
Words are substantially discrete(离散的) in nature, and thus, traditionally, the vast majority of natural language processing tools, both rule-based and statistical(基于规则的还统计的), have regarded words as distinct atomic symbols.
词是自然语言中离散的,所以大多自然语言研究的工具都将词视为基本单位
独热模型的两个缺点,一是所有的词都是独立的,只在他的那一维上起作用,无法体现任何语法或语义上的性相似性。另一个缺点,语料库大了会导致词典的维度爆炸
为了解决这两个问题,LSI/LSA,SVD(奇异值分解),LDA都被提出来
循环神经网络,自编码,卷积神经网络
前人的工作大多是利用知识图谱中的实体进行训练,本文不是要结构化的资源而是使用语料中特定的文本来提升word embeddings的训练效果
模型训练:
一方面利用常规文本进行CBOW的训练,另一方面通过提取技术得到了重要语义的上下文来训练(semantically significant contexts)。假定这些密切相关的单词已被转换为单词对,这些相关单词对用于通过与常规上下文的word2vec模型同时联合训练它们来修改单词嵌入。文章假设两个词具有较强的相关性,则将这两个词放在一起:
w r是根据提取与另一个词w t相关的词,T是词表大小。时间复杂度与词表大小有关,用负采样的方式进行加速。在训练过程中,将新的损失函数加入到原来的训练过程中,在CBOW训练时将所提取的知识加入其中,使得在word2vec的训练过程中就能反映这些相关性,而非进行后处理。
这是一个交叉熵
vwt和vwr是wr和wt的向量
可以结合不同的语义信息,提取同义词、相关词、词语的定义等,不同种类提取方法可以为向量带来不同类型的信息,适用于不同的应用。定义和同义词提取确实似乎传达了关于单词的语义接近度的有价值信息。数据来源暂且不表。